کلان داده یا بیگ دیتا (Big Data) چیست و چه کاربردهایی دارد؟
امروزه بیگ دیتا به وفور در رسانه های مختلف حتی به معانی نادرست مطرح میشود. آیا بیگ دیتا ابزار است؟ آیا یک فناوری است؟ یا فقط کلمه ای است که دانشمندان داده، برای ترساندن ما از آن استفاده می کنند؟
کلان داده یا بیگ دیتا (Big Data)، عبارتی برای توصیف حجم بالایی از دادههای مورد استفاده در کسب و کار است. این دادهها به صورت ساختار یافته یا بدون ساختار وجود دارند، اما مقدار داده اهمیتی ندارد، بلکه کاری که سازمان با آنها میکند، مهم است. از تحلیل کلان داده برای رسیدن به دیدگاههای جدید در جهت تصمیم گیریهای بهتر و انجام حرکات راهبردی در کسب و کار استفاده میشود.
تاریخچه کلان داده
عبارت بیگ دیتا به دادهای بسیار بزرگ و پیچیده اشاره دارد که پردازش آن با روشهای متداول بسیار دشوار یا غیرممکن است. ذخیره و تحلیل حجم بالای داده تاریخچهای طولانی دارد. ولی مفهوم کلان داده یا بیگ دیتا در اوایل سال 2000 از جانب داگ لنی، تحلیل گر صنعتی مطرح شد. او بیگ دیتا را با کمک سه V تعریف کرد که شامل Volume، Velocity و Variety بودند.
حجم (Volume)
سازمانها، دادههای مورد نیازشان را از منابع مختلفی از جمله تراکنشهای کاری، ابزارهای هوشمند یا اینترنت اشیا (IoT)، تجهیزات صنعتی، ویدئوها، شبکههای اجتماعی و غیره به دست میآورند. ذخیره سازی دادهها در گذشته دشوار بود. با ظهور پلتفرمهای ذخیره سازی مثل data lakes و Hadoop، این کار ساده شد.
شتاب (Velocity)
با رشد اینترنت اشیا، دادهها با سرعتی بی سابقه و به موقع در اختیار کسب و کارها قرار گرفتند. تگهای RFID، سنسورها و کنتورهای هوشمند به خوبی سیل دادهها را مهار نمودند.
تنوع (Variety)
دادهها فرمتهای مختلفی دارند. آنها در گذشته به صورت ساختار یافته و عددی بودند ولی امروزه، شاهد اسناد متنی فاقد ساختار، ایمیلها، ویدئوها، فایلهای صوتی و تراکنشهای مالی هستیم.
علاوه بر افزایش شتاب و تنوع دادهها شاهد جریانهای غیرقابل پیش بینی دادهها هستیم. آنها در غالب مواقع در حال تغییر هستند. این شرایط، چالش برانگیز است ولی کسب و کارها باید از ترندهای شبکه اجتماعی و نحوه مدیریت روزانه، فصلی و موقعیتی آن در صورت اوج گیری حجم دادهها مطلع شوند.
کیفیت داده هم اهمیت دارد. دادهها از منابع بسیار متفاوتی به دست میآیند. بنابراین لینک شدن، هماهنگ شدن، پاکسازی و تحول دادههای درون سیستمها دشوار است. کسب و کارها نیازمند برقراری ارتباط و سلسله مراتب در میان دادهها هستند. از این رو به راحتی امکان از دست رفتن کنترل دادهها وجود دارد.
مفاهیم کلیدی در مبحث کلان داده
سردرگمی در حوزه بیگ دیتا تا حد زیادی به خاطر وجود مفاهیم کلیدی متنوع و جدید در این زمینه است. در اینجا نگاهی به این مفاهیم میاندازیم.
- الگوریتم: فرمول ریاضی که نرم افزار برای تحلیل داده به کار میبرد.
- خدمات وب آمازون یا Amazon Web Services(AWS): مجموعهای از خدمات محاسباتی کلود است. کسب و کارها با کمک این خدمات به انجام محاسبات بزرگ بدون نیاز به مخزن یا نیروی پردازش داخلی میپردازند.
- کلود (محاسبه): قابلیت اجرای نرم افزار روی سرورهای راه دور به جای سرورهای محلی است.
- دانشمند داده (Data Scientist): کارشناسی که به استخراج و تحلیل دیدگاههای حاصل از دادهها میپردازد.
- Hadoop: مجموعهای از برنامهها که امکان پیش بینی ترندهای آتی را فراهم میکند.
- داده ساختار یافته در برابر داده بدون ساختار: هر چیزی که قابل جدول بندی است و با دادههای دیگر درون جدول در ارتباط قرار گیرد، داده ساختار یافته است. هر دادهای که چنین شرایطی ندارد، بدون ساختار است.
- Web Scraping: فرایند خودکار جمع آوری و ساختاردهی به دادههای حاصل از وب سایتها است که معمولا از طریق کدنویسی انجام میشود.
کلان داده یا بیگ دیتا چه اهمیتی دارد؟
اهمیت کلان داده وابسته به مقدار داده نیست بلکه کاری که روی داده انجام میدهید؛ اهمیت دارد. میتوانید دادهها را از هر منبعی تأمین کرده و مورد تحلیل قرار دهید تا پاسخ به این مقولهها فراهم شود: 1) کاهش هزینهها، 2) کاهش زمان، 3) تولید محصول جدید و بهینه سازی پیشنهادها و 4) تصمیم گیریهای هوشمندانه. هنگامی که بیگ دیتا را با تحلیلهای قدرتمند همراه کنید قادر به انجام فعالیتهای زیر هستید:
- ریشه شکستها، مشکلات و نواقص را به موقع پیدا میکنید.
- طبق عادات خرید مشتریان، کوپنهای فروش مناسبی را عرضه خواهید کرد.
- کل ریسک امور را در عرض چند دقیقه دوباره محاسبه خواهید کرد.
- رفتارهای متقلبانه را قبل از اثرگذاری روی سازمان، تشخیص میدهید.
کلان داده در دنیای امروز
کلان داده و روش مدیریت آن در سازمانها، روش به کارگیری اطلاعات را تغییر داده است. در ادامه به برخی از روشهای مدیریت داده اشاره خواهیم کرد.
- یکپارچه سازی داده: برای برقراری ارتباط میان منابع مختلف داده و کار با آنها در بازههای زمانی مختلف اهمیت دارد.
- راهبردهای تحلیل داده: این راهبرد در سازمانهای مختلف متفاوت است. باید به اطلاعات معتبر دسترسی پیدا کنید تا تصمیمات متناسب با آنها را در خط تولید اتخاذ کنید. با این راهبردها میدانید که هر قطره از کلان داده را چگونه مورد استفاده قرار دهید.
- انبار داده و Data Lake: مفهوم دریاچه داده یا Data Lake برای پاسخ به مدیریت بیگ دیتا معرفی شد. اگر انبار داده را در حکم یک بطری آب معدنی بدانیم، دریاچه داده همان منبع آب آن بطری است. پس دریاچه داده بسیار جامع تر از انبار داده است و تمامی دادهها را در بر میگیرد.
- اکوسیستم تحلیلی جدید: شرکتها از کلود، انبارها و فناوریهای جدید برای توسعه اکوسیستمهای تحلیلی خودشان استفاده میکنند.
کاربردهای کلان داده
بیگ دیتا در حوزههای مختلفی که نیازمند بهبود کارایی و توسعه خدمات داده محور هستند، به کار میرود. برای مثال تحلیل مجموعهای از دادههای آب و هوایی برای پیش بینی وضعیت هوای هفته آینده به کار میرود. برخی از این کاربردها به شرح زیر هستند.
- بهداشت و سلامت
- تشخیص کلاهبرداری
- تحلیل شبکههای اجتماعی
- پیش بینی آب و هوا
- بخش دولتی
بهداشت و سلامت
سهم کلان داده در حوزه بهداشت تا حد زیادی افزایش یافته است. در حوزه پزشکی نیازمند ذخیره سازی حجم بالایی از اطلاعات بیماران هستیم. پس سوابق پزشکی بیماران در قالب بیگ دیتا در میآید. از این دادهها میتوان برای تحلیل شرایط سلامت بیماران و پیشگیری از خطاهای پزشکی استفاده کرد. در ادامه دو نمونه برای نشان دادن قدرت بیگ دیتا ارائه میشوند:
- گوگل نشان داده که قادر است بر اساس جستجوی کلمات مرتبط با آنفولانزا از جانب کاربران، پیکهای این بیماری را پیش بینی کند. به تصویر زیر توجه کنید.
- کلان داده برای پاسخ به این پرسش به کار رفته که آیا گلو درد به معنای ابتلا به عفونت گوش است؟ شرکت Health Infoscope، هفتاد و دو میلیون سند الکترنیکی را جمع آوری کرده که نشان دهنده ارتباط میان یک بیماری با بیماری دیگر است. همچنین قدرت ارتباط و احتمال ابتلا به یکی با توجه به بیماری دیگر را مشخص میکند.
تشخیص کلاهبرداری
تشخیص و پیشگیری از کلاهبرداری یکی از کاربردهای کلان داده در دنیای امروز است. شرکتهای کارت اعتباری با کلاهبرداری زیادی مواجه هستند و فناوریهای بیگ دیتا برای تشخیص و پیشگیری از آنها به کار میرود.
قبلا شرکتها باید تمامی تراکنشها را وارسی میکردند و در صورت وجود مورد مشکوک با خریدار تماس میگرفتند و تراکنش را تأیید میکردند. ولی حالا تحلیلهای بیگ دیتا قادر به مشاهده الگوهای خرید و تشخیص کلاهبرداری هستند. این فناوری برای پیشگیری و تشخیص کلاهبرداری بسیار مفید است.
تحلیل شبکههای اجتماعی
دادههای جاری در شبکههای اجتماعی مثل توئیتر، فیسبوک و غیره یکی از بهترنی نمونههای بیگ دیتا هستند. این دادهها در قالب کامنتها، تصاویر، وضعیت اجتماعی و غیره جمع آوری میشوند. شرکتها از تکنیکهای کلان داده برای شناخت نیازهای مشتریان استفاده کرده و مطالبات آنها در شبکههای اجتماعی را بررسی میکنند. این کار به تحلیل داده و دستیابی به راهبردهای مفید برای رشد شرکتها مناسب است.
پیش بینی آب و هوا
دادههای آب و هوایی با ابزارهای مختلفی جمع آوری میشوند و با راهبرد کلان داده مورد تحلیل قرار میگیرند، تا شرایط آب و هوایی مثل طوفان، سیل و غیره پیش بینی شود.
بخش دولتی
بسیاری از دولتها از بیگ دیتا استفاده میکنند. این داده مزایای زیادی در حوزه اکتشاف نیرو، توسعه اقتصادی و غیره دارد. بعلاوه در بخش آموزش، خدمات بیمه و حمل و نقل هم مورد استفاده قرار میگیرد.
چه کسانی روی کلان داده متمرکز هستند؟
کلان داده در حوزه صنایع اهمیت دارد. ظهور اینترنت اشیا و سایر ابزارهای ارتباطی، حجم اطلاعات جمع آوری شده در سازمانها را افزایش داده است. این اطلاعات باید مدیریت و تحلیل شوند. صنایع بزرگ و کوچک قابلیت پردازش بیگ دیتا و دستیابی به دیدگاههای جدید را دارند.
یادگیری عمیق (Deep Learning) نیازمند کلان داده است. چون از آن برای تفکیک الگوهای پنهان و یافتن پاسخهای مناسب استفاده میکند. با کمک یادگیری عمیق به دادههای با کیفیت تر و در نهایت به نتایج بهتری میرسید. با دسترسی به کلان داده، فرمتهای بیشماری برای خلق دیدگاههای نوآورانه فراهم میشود. در نتیجه پیش بینیهای دقیق تر، افزایش کارایی و تجربههای بهتر برای مشتریان رقم خواهد خورد. تمامی این فعالیتها در جهت بهبود شرایط زندگی، حل معضلات و حفاظت از منابع آسیب پذیر است.
عملکرد کلان داده
کسب و کارها قبل از به کارگیری کلان داده در وهله اول باید جریان آن در میان موقعیتهای مکانی، منابع مختلف، سیستمها، مالکان و کاربران مختلف را مدنظر قرار دهند. به کارگیری بیگ دیتا حاوی پنج گام است که دادههای قدیمی و ساختار یافته را در کنار دادههای بدون ساختار و نیمه ساختار یافته در بر میگیرد.
- تعیین راهبرد کلان داده
- شناسایی منابع کلان داده
- دسترسی، مدیریت و ذخیره دادهها
- تحلیل داده
- اتخاذ تصمیمهای داده محور
مطلب پیشنهادی: ماشین لرنینگ چیست؟
1) تعیین راهبرد کلان داده
راهبرد کلان داده برنامهای برای کمک به نظارت و تقویت روشهای دریافت، ذخیره سازی، مدیریت به اشتراک گذاری و کاربرد داده در داخل و خارج از سازمان است. راهبرد بیگ دیتا سکویی برای موفقیت کسب و کار در دریایی از دادهها است. در حین طراحی راهبرد باید راهبرد فعلی، آینده کسب و کار و اهداف و برنامههای فناورانه را مدنظر قرار دهید. بنابراین باید بیگ دیتا را دارایی ارزشمند در کسب و کار دانست.
2) شناسایی منابع کلان داده
- داده جاری (Streaming data) حاصل از اینترنت اشیا (IoT) و سایر ابزارهای مرتبط است که به سمت سیستمهای IT درون دستگاه های هوشمند، ابزارهای پزشکی، تجهیزات صنعتی و غیره هدایت میشود. میتوانید بعد از رسیدن این نوع کلان داده آن را تحلیل کنید و بعد در مورد نگهداری یا حذف برخی از دادهها یا تحلیل بیشتر تصمیم گیری کنید.
- دادههای حاصل از شبکههای اجتماعی از تعاملات کاربران روی فیسبوک، یوتیوب، اینستاگرام و غیره به دست میآید. حجم زیادی از این نوع داده شامل تصاویر، ویدئوها، صوت، متن و صدا است که برای بازاریابی، فروش و پشتیبانی از مشتری مناسب است. این دادهها غالبا نیمه ساختار یافته یا بدون ساختار هستند که این امر، مصرف و تحلیلشان را دشوار میکند.
- دادههای همگانی از منابع Open data مثل data.gov متعلق به دولت ایالات متحده، CIA Word Factbook یا European Union Open Data Portal به دست میآیند.
- سایر کلان دادهها هم از دریاچههای داده، منابع کلود، تأمین کنندگان و مشتریان به دست میآیند.
3) دسترسی، مدیریت و ذخیره داده
سیستمهای محاسباتی مدرن، سرعت، قدرت و انعطاف پذیری لازم برای دسترسی فوری به حجم بالای دادهها و بیگ دیتا را فراهم کردهاند. شرکتها در کنار دسترسی به داده نیازمند روشهای یکپارچه سازی داده، کسب اطمینان از کیفیت داده و ذخیره و آماده سازی داده جهت تحلیل هستند. برخی از دادهها را میتوان در انبارهای قدیمی داده یا دیتاست ذخیره کرد ولی کلود، دریاچه و Hadoop از جمله روشهای انعطاف پذیر و کم هزینه برای ذخیره دادهها هستند.
4) تحلیل داده
سازمانها با کمک فناوریهای با کیفیت مثل grid computing یا in-memory analytics قادر به استفاده از تمام بیگ دیتا در طول تحلیلها هستند. روش دیگر، ارزیابی دادههای مناسب، قبل از تحلیل کردن کل دادهها است. به هر حال تحلیل این داده به معنای دستیابی به دیدگاه و ارزش افزوده از دادههای مورد بررسی است. امروزه کلان دادهها به عنوان منبع داده برای برنامههای تحلیلی پیشرفته مثل هوش مصنوعی به کار میرود.
5)اتخاذ تصمیمهای داده محور و هوشمندانه
دادههای مدیریت شده و مطمئن به تحلیلها و تصمیمهای معتبری میرسند. کسب و کارها برای ماندن در فضای رقابتی نیازمند بهره گیری از بیگ دیتا هستند. آنها باید بر اساس شواهد حاصل از کلان داده به تصمیم گیری بپردازند. سازمانهای مبتنی بر داده عملکرد بهتری دارند و به پیش بینیهای بهتر و سودآوری بیشتری میرسند.
در نهایت . . .
با توسعه فناوری و بزرگتر شدن بازارها و صنایع، با حجم زیادی از دادهها مواجه هستیم. مفهوم کلان داده به حجم بالایی از دادههای ساختار یافته و بدون ساختار اشاره دارد. کسب و کارها هر روز با این دادهها سروکار دارند. کاربرد این دادهها و نحوه تحلیل آنها تأثیر زیادی برای اتخاذ تصمیمات کاری سازنده و افزایش بهره وری و سودآوری دارد. شما در کسب و کارتان از چه نوع دادهای استفاده میکنید؟
منابع
sas.com
towardsdatascience.com
دیدگاه شما