وب سنتی متشکل از صفحه های وب (web pages) است که توسط html طراحی می شوند. html یک زبان نشانه گذاری (markup language) است و المان هایی را دارد که هر کدام یک عنصر درون صفحه وب را تعیین می کند. اما وب معنایی چیزی بیشتر از نشانه گذاری صفحه های وب است.وب معنایی (semantic web) را می توانیم توسعه وب سنتی و کنونی بدانیم به طوری که می توان محتواهایی را ایجاد کنیم که قابل خوانده شدن، درک شدن و پردازش شدن توسط هم انسان و هم ماشین باشند.

بر روی وب انواع مختلفی از داده های ساخت یافته (structured data)، نیمه ساخت یافته (semi-structured data) و غیر ساخت یافته (unstructured data) وجود دارند که برای ماشین قابل تفسیر شدن نیستند، پس باید به گونه ای محتوای وب را انتشار داد تا ماشین ها هم بتوانند آنها را تفسیر و پردازش کنند.

برای پاسخ به این نیاز وب معنایی به عنوان توسعه وب کنونی مطرح شده است، به طوری که محتوای وب را برای تفسیر شدن توسط ماشین ها انتشار می دهد. وب معنایی راهکاری است برای انتشار (publishing) و به اشتراک گذاری (sharing) محتوای وب که توسط ماشین نیز مورد استفاده قرار گیرد. همانطور که گفته شد محتوای وب به صورت داده های ساخت یافته مانند متن و اعداد، داده های نیمه ساخت یافته مانند فایل های XML و CSV و داده های غیر ساخت یافته مانند تصاویر و ویدیوها است.

از این مجموعه داده های قابل خوانده شدن توسط ماشین برای کاربردهای متفاوتی مانند موتور های جستجو ، یکپارچه سازی داده ها (data integration) ، پردازش کلان داده ها (big data)، حوزه های پزشکی و مراقبت از سلامت (healthcare) می توان استفاده کرد. طبق تعریف برنرز لی، وب معنایی توسعه یافته وب کنونی است به طوری که اطلاعات همراه با معانی تعریف شده اند، تا ماشین (کامپیوتر ) و انسان  بهتر می توانند از این اطلاعات استفاده کنند.

انواع و منشا داده ها

داده ها که از منابع مختلفی ایجاد می شوند که می توان آنها را به دو دسته داده های تولید شده توسط ماشین و کامپیوتر و داده های تولید شده انسان تقسیم کرد. البته ممکن است منبع داده ها به صورت ترکیبی از دو حالت بالا باشد اما به طور کلی منبع داده می تواند ماشین و کامپیوتر و یا انسان باشد. در حالتی که منبع ایجاد داده، ماشین یا کامپیوتر است، هیچگونه تعاملی با انسان وجود ندارد اما در حالتی دوم تعامل انسان با کامپیوتر، سبب ایجاد داده ها است.

به عنوان مثال داده های ایجاد شده توسط سنسورها و یا لاگ های ایجاد شده توسط وب سرور، از جمله داده هایی هستند که در دسته بندی نسخت قرار می گیرند اما داده هایی که توسط کلیک کردن یک شخص بر روی لینک های یک وب سایت یا داده هایی که به طور مستقیم تحویل سیستم می شوند، از جمله داده هایی هستند که در دسته بندی دوم قرار می گیرند.

یافته، پایگاه داده­های رابطه­ای هستند. در مدل رابطه ­ای داده ­ها در جدوالی به صورت ستونی و سطری ذخیره شده ­اند و داده ­ها از نوع Number, Date و یا String هستند. برای بازبابی داده ها از جداول (و View ها) زبان استاندارد SQL وجود دارد.

معمولا داده های نمیه ساخت یافته را می توانیم داده هایی در نظر بگیریم که در پایگاه داده ذخیره نشده اند. دادههای نیمه ساخت یافته شکلی از دادههای ساخت یافته ای هستند که از ساختار رسمی جداول و مدل دادهای وابسته به پایگاهِ داده های رابطه ای مطابقت نمی کنند، اما با این وجود، شامل برچسب ها یا علامت ها و شاخص هایی هستند که عناصر را از یکدیگر جدا و سلسله مراتبی از رکوردها و فیلدها را بین داده ها ایجاد می کنند.

XML و JSON از انواع این دسته از فایل ها هستند که به طور گسترده مورد استفاده قرار می گیرند. برخی از پایگاه­ داده ­های NoSQL مانند MongoDB داده ­ها را اساسا به فرمت JSON ذخیره سازی می ­کنند.

داده های غیر ساخت یافته یا داده های بی ساختار دسته ای از داده ها هستند که بر خلاف داده های ساخت یافته، هیچ فرمت خاصی ندارند. داده های غیر ساخت یافته بیشترین حجم کلان داده ها را تشکیل می دهند. اغلب فایل هایی که امروزه وجود دارند از دسته فایل های غیر ساخت یافته هستند.

به طور مثال در شبکه های اجتماعی مانند فیسبوک روزانه حجم بسیار بسیار بالایی از این فایل ها ایجاد می شوند. اما منبع این داده ها تنها شبکه های اجتماعی نیست بلکه تصاویر ماهواره ای که روزانه جمع آوری می شوند نیز حجم بالایی را دارند.