به دلیل ظهور تکنولوژی ها، دستگاه ها و ابزارهای ارتباطی جدید مانند شبکه های اجتماعی، شبکه های حسگر، رشد روز افزون وب سایت ها، میزان داده های در حال تولید به سرعت در حال رشد است. میزان داده های تولید شده تا سال ۲۰۰۳ بالغ بر پنج میلیارد گیگابایت بوده است و این نرخ تولید همچنان در حال رشد است.

واژه کلان داده ها برای اشاره به رشد روز افزون داده های با ساختار (Structure Data) و بدون ساختار (Unstructure Data) دارد که از منبع داده های (Data Source) گوناگون ایجاد می شوند. اگر بخواهیم تعریفی از کلان داده ارائه کنیم می توانیم آن را مجموعه داده هایی بدانیم که اندازه آنها فراتر از حدی است که با نرم افزارها و روش های معمول و رایج امروزی بتوان آنها را در یک زمان قابل قبول، دریافت، ذخیره، مدیریت و پردازش کرد.دراین تعریف، حجم (Volume) داده مشخص نشده است چون میزان کلان بودن داده همزمان با پیشرفت فناوری های ذخیره سازی و پردازش اطلاعات روز به روز و عموماً به خاطر تولید داده توسط تجهیزات و ابزارهای متفاوت دیجیتال در حال افزایش است.