کلان داده یا بیگ دیتا (Big Data) چیست و چه کاربردهایی دارد؟

17 دی 1399 - آخرین بروزرسانی: 09 مرداد 1403
بیگ دیتا چیست
زمان تقریبی مطالعه: 10 دقیقه

امروزه بیگ دیتا به وفور در رسانه های مختلف حتی به معانی نادرست مطرح می‌شود. آیا بیگ دیتا ابزار است؟ آیا یک فناوری است؟ یا فقط کلمه ای است که دانشمندان داده، برای ترساندن ما از آن استفاده می کنند؟

کلان داده یا بیگ دیتا (Big Data)، عبارتی برای توصیف حجم بالایی از داده‌های مورد استفاده در کسب و کار است. این داده‌ها به صورت ساختار یافته یا بدون ساختار وجود دارند، اما مقدار داده اهمیتی ندارد، بلکه کاری که سازمان با آنها می‌کند، مهم است. از تحلیل کلان داده برای رسیدن به دیدگاه‌های جدید در جهت تصمیم گیری‌های بهتر و انجام حرکات راهبردی در کسب و کار استفاده می‌شود.

 

تاریخچه کلان داده

عبارت بیگ دیتا به داده‌ای بسیار بزرگ و پیچیده اشاره دارد که پردازش آن با روش‌های متداول بسیار دشوار یا غیرممکن است. ذخیره و تحلیل حجم بالای داده تاریخچه‌ای طولانی دارد. ولی مفهوم کلان داده یا بیگ دیتا در اوایل سال 2000 از جانب داگ لنی، تحلیل گر صنعتی مطرح شد. او بیگ دیتا را با کمک سه V تعریف کرد که شامل Volume، Velocity و Variety بودند.

 

بیگ دیتا یا کلان داده در کسب وکار

 

حجم (Volume)

سازمان‌ها، داده‌های مورد نیازشان را از منابع مختلفی از جمله تراکنش‌های کاری، ابزارهای هوشمند یا اینترنت اشیا (IoT)، تجهیزات صنعتی، ویدئوها، شبکه‌های اجتماعی و غیره به دست می‌آورند. ذخیره سازی داده‌ها در گذشته دشوار بود. با ظهور پلتفرم‌های ذخیره سازی مثل data lakes و Hadoop، این کار ساده شد.

شتاب (Velocity)

با رشد اینترنت اشیا، داده‌ها با سرعتی بی سابقه و به موقع در اختیار کسب و کارها قرار گرفتند. تگ‌های RFID، سنسورها و کنتورهای هوشمند به خوبی سیل داده‌ها را مهار نمودند.

 

تنوع (Variety)

داده‌ها فرمت‌های مختلفی دارند. آنها در گذشته به صورت ساختار یافته و عددی بودند ولی امروزه، شاهد اسناد متنی فاقد ساختار، ایمیل‌ها، ویدئوها، فایل‌های صوتی و تراکنش‌های مالی هستیم.

علاوه بر افزایش شتاب و تنوع داده‌ها شاهد جریان‌های غیرقابل پیش بینی داده‌ها هستیم. آنها در غالب مواقع در حال تغییر هستند. این شرایط، چالش برانگیز است ولی کسب و کارها باید از ترندهای شبکه اجتماعی و نحوه مدیریت روزانه، فصلی و موقعیتی آن در صورت اوج گیری حجم داده‌ها مطلع شوند.

کیفیت داده هم اهمیت دارد. داده‌ها از منابع بسیار متفاوتی به دست می‌آیند. بنابراین لینک شدن، هماهنگ شدن، پاکسازی و تحول داده‌های درون سیستم‌ها دشوار است. کسب و کارها نیازمند برقراری ارتباط و سلسله مراتب در میان داده‌ها هستند. از این رو به راحتی امکان از دست رفتن کنترل داده‌ها وجود دارد.

 

مفاهیم کلیدی در مبحث کلان داده

سردرگمی در حوزه بیگ دیتا تا حد زیادی به خاطر وجود مفاهیم کلیدی متنوع و جدید در این زمینه است. در اینجا نگاهی به این مفاهیم می‌اندازیم.

  • الگوریتم: فرمول ریاضی که نرم افزار برای تحلیل داده به کار می‌برد.
  • خدمات وب آمازون یا Amazon Web Services(AWS): مجموعه‌ای از خدمات محاسباتی کلود است. کسب و کارها با کمک این خدمات به انجام محاسبات بزرگ بدون نیاز به مخزن یا نیروی پردازش داخلی می‌پردازند.

 

خدمات وب آمازون در کلان داده

 

  • کلود (محاسبه): قابلیت اجرای نرم افزار روی سرورهای راه دور به جای سرورهای محلی است.
  • دانشمند داده (Data Scientist): کارشناسی که به استخراج و تحلیل دیدگاه‌های حاصل از داده‌ها می‌پردازد.
  • Hadoop: مجموعه‌ای از برنامه‌ها که امکان پیش بینی ترندهای آتی را فراهم می‌کند.
  • داده ساختار یافته در برابر داده بدون ساختار: هر چیزی که قابل جدول بندی است و با داده‌های دیگر درون جدول در ارتباط قرار گیرد، داده ساختار یافته است. هر داده‌ای که چنین شرایطی ندارد، بدون ساختار است.
  • Web Scraping: فرایند خودکار جمع آوری و ساختاردهی به داده‌های حاصل از وب سایت‌ها است که معمولا از طریق کدنویسی انجام می‌شود.

 

کلان داده یا بیگ دیتا چه اهمیتی دارد؟

اهمیت کلان داده وابسته به مقدار داده نیست بلکه کاری که روی داده انجام می‌دهید؛ اهمیت دارد. می‌توانید داده‌ها را از هر منبعی تأمین کرده و مورد تحلیل قرار دهید تا پاسخ به این مقوله‌ها فراهم شود: 1) کاهش هزینه‌ها، 2) کاهش زمان، 3) تولید محصول جدید و بهینه سازی پیشنهادها و 4) تصمیم گیری‌های هوشمندانه. هنگامی که بیگ دیتا را با تحلیل‌های قدرتمند همراه کنید قادر به انجام فعالیت‌های زیر هستید:

  • ریشه شکست‌ها، مشکلات و نواقص را به موقع پیدا می‌کنید.
  • طبق عادات خرید مشتریان، کوپن‌های فروش مناسبی را عرضه خواهید کرد.
  • کل ریسک امور را در عرض چند دقیقه دوباره محاسبه خواهید کرد.
  • رفتارهای متقلبانه را قبل از اثرگذاری روی سازمان، تشخیص می‌دهید.

 

کلان داده در دنیای امروز

کلان داده و روش مدیریت آن در سازمانها، روش به کارگیری اطلاعات را تغییر داده است. در ادامه به برخی از روش‌های مدیریت داده اشاره خواهیم کرد.

  • یکپارچه سازی داده: برای برقراری ارتباط میان منابع مختلف داده و کار با آنها در بازه‌های زمانی مختلف اهمیت دارد.
  • راهبردهای تحلیل داده: این راهبرد در سازمان‌های مختلف متفاوت است. باید به اطلاعات معتبر دسترسی پیدا کنید تا تصمیمات متناسب با آنها را در خط تولید اتخاذ کنید. با این راهبردها می‌دانید که هر قطره از کلان داده را چگونه مورد استفاده قرار دهید.
  • انبار داده و Data Lake: مفهوم دریاچه داده یا Data Lake برای پاسخ به مدیریت بیگ دیتا معرفی شد. اگر انبار داده را در حکم یک بطری آب معدنی بدانیم، دریاچه داده همان منبع آب آن بطری است. پس دریاچه داده بسیار جامع تر از انبار داده است و تمامی داده‌ها را در بر می‌گیرد.

 

دریاچه داده در کلان داده

 

  • اکوسیستم تحلیلی جدید: شرکت‌ها از کلود، انبارها و فناوری‌های جدید برای توسعه اکوسیستم‌های تحلیلی خودشان استفاده می‌کنند.

 

کاربردهای کلان داده

بیگ دیتا در حوزه‌های مختلفی که نیازمند بهبود کارایی و توسعه خدمات داده محور هستند، به کار می‌رود. برای مثال تحلیل مجموعه‌ای از داده‌های آب و هوایی برای پیش بینی وضعیت هوای هفته آینده به کار می‌رود. برخی از این کاربردها به شرح زیر هستند.

  • بهداشت و سلامت
  • تشخیص کلاهبرداری
  • تحلیل شبکه‌های اجتماعی
  • پیش بینی آب و هوا
  • بخش دولتی

 

بهداشت و سلامت

سهم کلان داده در حوزه بهداشت تا حد زیادی افزایش یافته است. در حوزه پزشکی نیازمند ذخیره سازی حجم بالایی از اطلاعات بیماران هستیم. پس سوابق پزشکی بیماران در قالب بیگ دیتا در می‌آید. از این داده‌ها می‌توان برای تحلیل شرایط سلامت بیماران و پیشگیری از خطاهای پزشکی استفاده کرد. در ادامه دو نمونه برای نشان دادن قدرت بیگ دیتا ارائه می‌شوند:

  • گوگل نشان داده که قادر است بر اساس جستجوی کلمات مرتبط با آنفولانزا از جانب کاربران، پیک‌های این بیماری را پیش بینی کند. به تصویر زیر توجه کنید.

 

پیش بینی آنفولانزا با کلان داده

 

 

  • کلان داده برای پاسخ به این پرسش به کار رفته که آیا گلو درد به معنای ابتلا به عفونت گوش است؟ شرکت Health Infoscope، هفتاد و دو میلیون سند الکترنیکی را جمع آوری کرده که نشان دهنده ارتباط میان یک بیماری با بیماری دیگر است. همچنین قدرت ارتباط و احتمال ابتلا به یکی با توجه به بیماری دیگر را مشخص می‌کند.

 

پیش بینی بیماری ها با کلان داده

 

تشخیص کلاهبرداری

تشخیص و پیشگیری از کلاهبرداری یکی از کاربردهای کلان داده در دنیای امروز است. شرکت‌های کارت اعتباری با کلاهبرداری زیادی مواجه هستند و فناوری‌های بیگ دیتا برای تشخیص و پیشگیری از آنها به کار می‌رود.

قبلا شرکت‌ها باید تمامی تراکنش‌ها را وارسی می‌کردند و در صورت وجود مورد مشکوک با خریدار تماس می‌گرفتند و تراکنش را تأیید می‌کردند. ولی حالا تحلیل‌های بیگ دیتا قادر به مشاهده الگوهای خرید و تشخیص کلاهبرداری هستند. این فناوری برای پیشگیری و تشخیص کلاهبرداری بسیار مفید است.

 

تحلیل شبکه‌های اجتماعی

داده‌های جاری در شبکه‌های اجتماعی مثل توئیتر، فیسبوک و غیره یکی از بهترنی نمونه‌های بیگ دیتا هستند. این داده‌ها در قالب کامنت‌ها، تصاویر، وضعیت اجتماعی و غیره جمع آوری می‌شوند. شرکت‌ها از تکنیک‌های کلان داده برای شناخت نیازهای مشتریان استفاده کرده و مطالبات آنها در شبکه‌های اجتماعی را بررسی می‌کنند. این کار به تحلیل داده و دستیابی به راهبردهای مفید برای رشد شرکت‌ها مناسب است.

 

پیش بینی آب و هوا

داده‌های آب و هوایی با ابزارهای مختلفی جمع آوری می‌شوند و با راهبرد کلان داده مورد تحلیل قرار می‌گیرند، تا شرایط آب و هوایی مثل طوفان، سیل و غیره پیش بینی شود.

 

بخش دولتی

بسیاری از دولت‌ها از بیگ دیتا استفاده می‌کنند. این داده مزایای زیادی در حوزه اکتشاف نیرو، توسعه اقتصادی و غیره دارد. بعلاوه در بخش آموزش، خدمات بیمه و حمل و نقل هم مورد استفاده قرار می‌گیرد.

 

چه کسانی روی کلان داده متمرکز هستند؟

کلان داده در حوزه صنایع اهمیت دارد. ظهور اینترنت اشیا و سایر ابزارهای ارتباطی، حجم اطلاعات جمع آوری شده در سازمان‌ها را افزایش داده است. این اطلاعات باید مدیریت و تحلیل شوند. صنایع بزرگ و کوچک قابلیت پردازش بیگ دیتا و دستیابی به دیدگاه‌های جدید را دارند.

 

کلان داده در صنایع مختلف

 

یادگیری عمیق (Deep Learning) نیازمند کلان داده است. چون از آن برای تفکیک الگوهای پنهان و یافتن پاسخ‌های مناسب استفاده می‌کند. با کمک یادگیری عمیق به داده‌های با کیفیت تر و در نهایت به نتایج بهتری می‌رسید. با دسترسی به کلان داده، فرمت‌های بیشماری برای خلق دیدگاه‌های نوآورانه فراهم می‌شود. در نتیجه پیش بینی‌های دقیق تر، افزایش کارایی و تجربه‌های بهتر برای مشتریان رقم خواهد خورد. تمامی ‌این فعالیت‌ها در جهت بهبود شرایط زندگی، حل معضلات و حفاظت از منابع آسیب پذیر است.

 

عملکرد کلان داده

کسب و کارها قبل از به کارگیری کلان داده در وهله اول باید جریان آن در میان موقعیت‌های مکانی، منابع مختلف، سیستم‌ها، مالکان و کاربران مختلف را مدنظر قرار دهند. به کارگیری بیگ دیتا حاوی پنج گام است که داده‌های قدیمی و ساختار یافته را در کنار داده‌های بدون ساختار و نیمه ساختار یافته در بر می‌گیرد.

  • تعیین راهبرد کلان داده
  • شناسایی منابع کلان داده
  • دسترسی، مدیریت و ذخیره داده‌ها
  • تحلیل داده
  • اتخاذ تصمیم‌های داده محور

 

مطلب پیشنهادی: ماشین لرنینگ چیست؟

 

1) تعیین راهبرد کلان داده

راهبرد کلان داده برنامه‌ای برای کمک به نظارت و تقویت روش‌های دریافت، ذخیره سازی، مدیریت به اشتراک گذاری و کاربرد داده در داخل و خارج از سازمان است. راهبرد بیگ دیتا سکویی برای موفقیت کسب و کار در دریایی از داده‌ها است. در حین طراحی راهبرد باید راهبرد فعلی، آینده کسب و کار و اهداف و برنامه‌های فناورانه را مدنظر قرار دهید. بنابراین باید بیگ دیتا را دارایی ارزشمند در کسب و کار دانست.

 

2) شناسایی منابع کلان داده

  • داده جاری (Streaming data) حاصل از اینترنت اشیا (IoT) و سایر ابزارهای مرتبط است که به سمت سیستم‌های IT درون دستگاه های هوشمند، ابزارهای پزشکی، تجهیزات صنعتی و غیره هدایت می‌شود. می‌توانید بعد از رسیدن این نوع کلان داده آن را تحلیل کنید و بعد در مورد نگهداری یا حذف برخی از داده‌ها یا تحلیل بیشتر تصمیم گیری کنید.
  • داده‌های حاصل از شبکه‌های اجتماعی از تعاملات کاربران روی فیسبوک، یوتیوب، اینستاگرام و غیره به دست می‌آید. حجم زیادی از این نوع داده شامل تصاویر، ویدئوها، صوت، متن و صدا است که برای بازاریابی، فروش و پشتیبانی از مشتری مناسب است. این داده‌ها غالبا نیمه ساختار یافته یا بدون ساختار هستند که این امر، مصرف و تحلیلشان را دشوار می‌کند.
  • داده‌های همگانی از منابع Open data مثل data.gov متعلق به دولت ایالات متحده، CIA Word Factbook یا European Union Open Data Portal به دست می‌آیند.
  • سایر کلان داده‌ها هم از دریاچه‌های داده، منابع کلود، تأمین کنندگان و مشتریان به دست می‌آیند.

 

3) دسترسی، مدیریت و ذخیره داده

سیستم‌های محاسباتی مدرن، سرعت، قدرت و انعطاف پذیری لازم برای دسترسی فوری به حجم بالای داده‌ها و بیگ دیتا را فراهم کرده‌اند. شرکت‌ها در کنار دسترسی به داده نیازمند روش‌های یکپارچه سازی داده، کسب اطمینان از کیفیت داده و ذخیره و آماده سازی داده جهت تحلیل هستند. برخی از داده‌ها را می‌توان در انبارهای قدیمی داده یا دیتاست ذخیره کرد ولی کلود، دریاچه و Hadoop از جمله روش‌های انعطاف پذیر و کم هزینه برای ذخیره داده‌ها هستند.

 

4) تحلیل داده

سازمان‌ها با کمک فناوری‌های با کیفیت مثل grid computing یا in-memory analytics قادر به استفاده از تمام بیگ دیتا در طول تحلیل‌ها هستند. روش دیگر، ارزیابی داده‌های مناسب، قبل از تحلیل کردن کل داده‌ها است. به هر حال تحلیل این داده به معنای دستیابی به دیدگاه و ارزش افزوده از داده‌های مورد بررسی است. امروزه کلان داده‌ها به عنوان منبع داده برای برنامه‌های تحلیلی پیشرفته مثل هوش مصنوعی به کار می‌رود.

 

تحلیل کلان داده

 

5)اتخاذ تصمیم‌های داده محور و هوشمندانه

داده‌های مدیریت شده و مطمئن به تحلیل‌ها و تصمیم‌های معتبری می‌رسند. کسب و کارها برای ماندن در فضای رقابتی نیازمند بهره گیری از بیگ دیتا هستند. آنها باید بر اساس شواهد حاصل از کلان داده به تصمیم گیری بپردازند. سازمانهای مبتنی بر داده عملکرد بهتری دارند و به پیش بینی‌های بهتر و سودآوری بیشتری می‌رسند.

 

در نهایت . . .

با توسعه فناوری و بزرگتر شدن بازارها و صنایع، با حجم زیادی از داده‌ها مواجه هستیم. مفهوم کلان داده به حجم بالایی از داده‌های ساختار یافته و بدون ساختار اشاره دارد. کسب و کارها هر روز با این داده‌ها سروکار دارند. کاربرد این داده‌ها و نحوه تحلیل آنها تأثیر زیادی برای اتخاذ تصمیمات کاری سازنده و افزایش بهره وری و سودآوری دارد. شما در کسب و کارتان از چه نوع داده‌ای استفاده می‌کنید؟

 

منابع

sas.com

towardsdatascience.com

آیا این مطلب برای شما مفید بود؟
بلهخیر
نویسنده مطلب زینت فلاح
من زینت فلاح، ارشد روان سنجی هستم. بیش از ده ساله که ترجمه متون روانشناسی،مدیریت و فناوری رو انجام میدم. به تولید محتوای جدید علاقمندم و چند ساله که با کارلنسر همکاری دارم. https://www.karlancer.com/profile/1408

دیدگاه شما

بدون دیدگاه