امروزه و در دهه های اخیر به خصوص با رشد اینترنت و شبکه های اجتماعی و نفوذ رایانه ها در بیشتر یا حتی تمام امور روزمره زندگی ما، منجر به رشد سریع و روز افزون انواع مختلفی از داده ها شده است. پیش از این داده ها بر روی پایگاه داده های رابطه ای یا فایل های مانند اکسل و صفحه گسترده (spreadsheet) ذخیره می شده اند ولی در زمان حال، انواع مختلفی از منابع داده مانند پایگاه داده های غیره رابطه ای nosql و چارچوب توصیف منبع (resource description framework) و شبکه های اجتماعی وجود دارند که هر یک حجم بسیار انبوهی از داده ها را از انواع مختلف مانند تصاویر، ویدیوها، صفحه های وب (html) تولید و نگهداری می کنند.

یکی از اصلی ترین منابعی که وجود دارد صفحه های وب (web pages) هستند که داده های مفید و فراوانی را فراهم کرده اند. صفحه های وب مبتنی بر تگ های html (یا html tag) هستند که هر کدام از این تگ ها هدف خاص خود را دارند و نوعی از داده ها مانند متن ها، تصاویر، صدا، ویدیوها را در دسترس بازدید کننده قرار می دهند.