نیاز به تکنولوژی کلان داده ها

یکی از مشکل های کنونی کلان داده ها این است که آنها با پایگاه داده رابطه ای به سختی کار می کنند. امروزه حجم کلان داده ها به گونه ای در حال رشد است که حجم آنها در حد پتابایت یا اگزابایت است. بنابراین رویکرد به کارگیری از پایگاه داده های رابطه ای دیگر برای این حجم از داده ها مناسب نمی باشد، پس لازم است تا داده ها به صورت موازی (Parallel) و بر روی دها، صدها و حتی هزاران سرور توزیع شده (Distributed Servers)، پردازش شوند.

سازمانی را در نظر بگیرید که در حال حاضر یک گیگابایت اطلاعات بر روی یک پایگاه داده (مانند اوراکل) دارد که بر روی یک ماشین (سرور) نصب شده است. پس از مدتی میزان این اطلاعات تا 10 گیگابایت و سپس تا 100 گیگابایت رشد می کند و سپس میزان اطلاعات تا اندازه ای رشد پیدا می کند که پایگاه داده رابطه ای و سروری که آنرا میزبانی می کند دیگر توان پردازش و پرس و جوی این حجم از اطلاعات را ندارد.

از سوی دیگر پایگاه داده رابطه ای تنها قابلیت ذخیره سازی داده ای با ساختار مانند اعداد صحیح، رشته ها، تاریخ و زمان و غیره را دارد. در صورتی که امروزه داده های بدون ساختار مانند تصویرها، ویدیو ها یا داده هایی از منبع های متفاوتی مانند شبکه های اجتماعی، شبکه های حسگر و غیره نیز باید جمع آوری و مورد پردازش قرار بگیرند که پایگاه داده های رابطه ای دیگر پاسخ گوی این نوع داده ها نخواهند بود.

بنابراین می توان نیاز به تکنولوژی کلان داده ها را،  عدم توانایی پاسخ گویی تکنولوژی های گذشته مانند پایگاه داده رابطه ای در مقابل حجم انبوه داده ها، نیاز به مقیاس پذیری ، وجود داده بی ساختار یا نیمه ساختار، دسترس پذیری، تحلیل های بلادرنگ (Real Time)، تحمل پذیری خطا و بسیاری از موارد دیگر دانست.

همچنین امروزه لازم است تا داده ها به صورت بلادرنگ و در یک زمان مشخص پردازش، تحلیل شوند تا واکنشی بی درنگ و تعیین شده در یک زمان مشخص صورت گیرد. در مواردی همچون کنترل ترافیک، سیستم های مراقبت از سلامت، تشخیص ناهنجاری ها، داده ها در جریان (Streaming) هستند و از این رو لازم است تا این داده های در جریان بی درنگ پردازش شوند.

در مطلب پیش رو در مورد چندین کاربرد کلان داده ها و پردازش بی درنگ صحبت شده است.