امروزه و در دهه های اخیر به خصوص با رشد اینترنت و شبکه های اجتماعی و نفوذ رایانه ها در بیشتر یا حتی تمام امور روزمره زندگی ما، منجر به رشد سریع و روز افزون انواع مختلفی از داده ها شده است. پیش از این داده ها بر روی پایگاه داده های رابطه ای یا فایل های مانند اکسل و صفحه گسترده (spreadsheet) ذخیره می شده اند ولی در زمان حال، انواع مختلفی از منابع داده مانند پایگاه داده های غیره رابطه ای nosql و چارچوب توصیف منبع (resource description framework) و شبکه های اجتماعی وجود دارند که هر یک حجم بسیار انبوهی از داده ها را از انواع مختلف مانند تصاویر، ویدیوها، صفحه های وب (html) تولید و نگهداری می کنند.

یکی از اصلی ترین منابعی که وجود دارد صفحه های وب (web pages) هستند که داده های مفید و فراوانی را فراهم کرده اند. صفحه های وب مبتنی بر تگ های html (یا html tag) هستند که هر کدام از این تگ ها هدف خاص خود را دارند و نوعی از داده ها مانند متن ها، تصاویر، صدا، ویدیوها را در دسترس بازدید کننده قرار می دهند.

در ادامه مطلب ها و با استفاده از ماژول های مناسب، مثال هایی ساده را برای خوانده، نوشتن و استخراج داده ها از فایل هایی مانند فرمت های CSV، فایل های اکسل، پی دی اف (PDF) بیان کرده ایم. همچنین در مطلبی کوتاه در مورد پردازش زبان طبیعی (Natural Language Processing) با استفاده از ماژول NLTK به شما یاد داده ایم چکونه محتوای استخراج شده را پردازش کنید.

در مطلب های جدا از این دوره، و توسط کتابخانه SqlAlchemy، در مورد ارتباط، دسترسی، استخراج و تعامل با پایگاه داده های رابطه ای صحبت کرده ایم. در مطلب های وب معنایی (SemanticWeb) می خواهیم در مورد معماری آن و استخراج داده ها توسط زبان پرس و جوی Sparql صحبت کنیم.

شروع مطلب دوره وب معنایی – پایان مطلب دوره وب معنایی

برنامه نویسی پایگاه داده رابطه ای با SqlAlchemy

برنامه نویسی SQL در پایگاه داده اوراکل