کلان داده چیست

کلان داده ها ترکیبی از تکنولوژی های گذشته و نویی است که به سازمان ها کمک می کند تا به بینش عملی دست یابند. بنابراین کلان داده ها توانایی مدیریت حجم بسیار زیادی از داده های گوناگون با سرعت بالا و در یک زمان مشخص است تا تحلیل و عکس العمل های بی درنگ (Real Time) اجازه داده شود. تعریف های متفاوتی از کلان داده ها وجود دارد اما در سال ۲۰۰۱ کلان داده ها را در غالب سه بعد (چالش) حجم (Volume) ، نرخ تولید (Velocity) و گوناگونی (Variety) تعریف شد که به سه V نیز شناخته می شوند.

حجم

به خودی خود نام کلان داده ها نشان دهنده وجود حجم انبوهی از داده است که از منبع داده های متفاوت جمع آوری می شوند. عوامل بسیاری مانند داده های مبتنی بر تراکنش (Transaction) که در طول سال ها ذخیره شده اند و یا جریان داده های (Data Stream) بدون ساختار شبکه های اجتماعی (مانند تصویر، صدا) در افزایش حجم داده ها دخیل هستند.

در گذشته افزایش حجم داده یک چالش برای ذخیره سازی آنها بود ولی امروزه حتی با کاهش هزینه های ذخیره سازی داده ها، مسائلی همچون پی بردن به ارزش و رابطه میان داده ها و تجزیه و تحلیل آنها بسیار حیاتی و ضروری است.

نرخ تولید

داده ها با سرعت بالایی در حال تولید هستند و لازم است تا بی درنگ آنها را پردازش کرد. تنها وجود حجم انبوهی از داده ها نمی تواند به محققان و صاحبان کسب و کار کمک کند تا تصمیم های لازم را بگیرند. بنابراین لازم است تا در زمانی سریع و مشخص این داده های در حال جریان (Stream) پردازش شوند. بنابراین می توان گفت که دو گونه پردازش دسته ای (Batch Processing) و پردازش بلادرنگ (بی درنگ یا Real Time Processing) در قبال داده ها وجود دارد.

گوناگونی

منبع داده ها به صورت مستمر در حال افزایش هستند، به طور مثال در گذشته داده ها به طور معمول بوسیله کارمندها تولید می شده است ولی امروزه توسط کارمندهان، مشتری ها و حتی ماشین ها مانند لاگ های مربوط به سرورها تولید می شوند. همچنین بر خلاف گذشته که داده ها با ساختار بودند (مانند رکوردهای یک پایگاه داده رابطه ای مثل رشته، تاریخ و اعداد صحیح) امروزه داده های بی ساختار مانند تصاویر، ویدیوها و داده های نیمه ساخت یافته (Semi-Structure Data) مانند فرمت های XML و Json نیز وجود دارند.

دیگر جنبه های کلان داده ها

بنابراین می توان نتیجه گرفت که حجم تنها جنبه کلان داده ها نیست. در حال حاضر به جز سه جنبه گفته شده در بالا، جنبه های دیگری در زمینه کلان داده ها مطرح شده اند که در ادامه تلاش کردیم به آنها اشاره داشته باشیم.

درستی یا Veracity

با توجه به اینکه داده ها از منبع های گوناگون دریافت می شوند، ممکن است نتوان به همه آنها اعتماد کرد. به طور مثال در یک شبکه اجتماعی، ممکن است نظرهای زیادی در مورد یک موضوع ویژه ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمی توان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت.

اعتبار یا Validity

با در نظر گرفتن اینکه داده ها درست باشند، ممکن است برای برخی از کاربردها مناسب نباشد و یا عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.

نوسان یا Volatility

سرعت تغییر ارزش داده های گوناگون در طول زمان می تواند متفاوت باشد. در کاربردهایی نظیر تحلیل ارز و بورس، داده ها با نوسان زیادی مواجه هستند و به سرعت ارزش خود را از دست می دهند و مقادیر جدیدی به خود می گیرند. اگر چه نگهداری اطلاعات در زمان طولانی به منظور تحلیل تغییرات و نوسان داده ها حائز اهمیت است ولی افزایش دوره نگهداری اطلاعات، قطعا هزینه های پیاده سازی زیادی را دربر خواهد داشت که باید در نظر گرفته شود.

مصورسازی یا Visualization

یکی از کارهای مشکل در حوزه کلان داده ها، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم بسیار زیادی از اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل بررسی باشند،  این کار بوسیله روش های تحلیلی و بصری سازی مناسب اطلاعات، امکان پذیری است.

ارزش یا Value

یا هزینه های که برای نگهداری داده و پردازش آنها می شود، ارزش آن را از نظر تصمیم گیری دارد یا نه و ارزش و فایده مورد نظر را برای یک سازمان خواهند داشت؟

بخش دیگر جنبه ها در کلان داده ها از سایت بیگ دیتا دات آی آر گرفته شده است.