هدف از وب اسکرپینگ، خواندن صفحه وب و سپس انتخاب تگ هایی از درون آن صفحه است که برای ما داده های مهمی را فراهم کرده اند. هر کدام از تگ های html دارای کاربرد خاص خودش است. از این لینک می توانید در مورد تگ های مختلف که بر اساس کاربردشان دسته بندی شده اند مطالعه کنید. هر تگ دارای یک سری از خصوصیت هایی است که مهمترین آنها در وب اسکرپینگ، id و class نام دارند خواهید دید از این دو خصوصیت به طور مکرر برای دسترسی به یک یا چندین تگ استفاده خواهیم کرد.

Id که مخفف (identifier) است، به عنوان یک شناسه منحصر به فرد برای تگ عمل می کند و در صفحه وب یک تگ با شناسه (id) خود از دیگر تگ ها قابل شناسایی و تمایز خواهد بود. class برای دسته بندی یک سری از تگ ها استفاده می شوند که درون صفحه از نظر استایل و اعمال css دارای یک سری از ویژگی ها هستند.

در استفاده از ماژول های وب اسکرپینگ، از طریق نام تگ (به طور مثال تگ p یا img)، یا از طریق شناسه (یا id) تگ و یا از طریق class  تگ،می توانیم به یک یا گروهی (دسته یا class) از تگ ها دسترسی داشته باشیم. بنابراین به عنوان جمع بندی به سه روش زیر به یک تگ دسترسی پیدا خواهیم کرد :

۱از طریق نام تگ مانند تگ img: به طور مثال می خواهیم تمامی تصویر درون صفحه وب را دانلود کنیم.

۲از طریق شناسه یا id تگ: به طور مثال می خواهیم تنها یک جدول با یک شناسه را از میات تمامی تگ ها جدا کنیم. به عبارتی چندین جدول وجود دارد ولی ما تنها یک مورد خاص آنرا می خواهیم.

۳از طریق کلاس  یا class تگ: به طور مثال می خواهیم تمامی تصاویر گالری درون صفحه که دارای یک class مشابه هستند را دانلود کنیم ولی نمی خواهیم تصاویر اضافی مانند لوگو یا تصویر ایکون های درون صفحه دانلود شوند.

به عنوان مثالی دیگر از وب اسکرپینگ فرض کنید که می خواهیم تمامی متن های (یا تگ های p) درون صفحه را بدست آوریم و سپس تعداد کل واژگان و تعداد تکرار همه و بیشترین واژه یا واژگانی که تکرار شده اند را پیدا کنیم.

بنابراین در وب اسکرپینگ می توانیم از طریق نام تگ، id و class انتساب داده شده به هر تگ به محتوای صفحه وب دسترسی پیدا کنیم. هر تگ html دارای یک سری خصوصیت های (attributes) خاص خودشنیز است که محتوای آن تگ را آماده می کنند. به طور مثال در تگ img خصوصیت src به آدرس ذخیره سازی تصویر بر روی سرور اشاره دارد و یا خصوصیت href در تگ a آدرسی را نشان می دهد که به عنوان لینک در صفحه وب نشان داده می شود.

ما در مطلب های پیش رو به شما با مثال های متعدد سعی کرده ایم که نمونه های مختلفی از وب اسکرپینگ را نشان دهیم ولی در همین مطلب و پیش از ورود به استفاده از ماژول bs4 باید بگوییم که وب اسکرپینگ و استخراج داده ها به طور مستقیم بستگی به پروژه شما و وب سایتی دارد که می خواهید از آن داده استخراج کنید ولی ما سعی کرده ایم با مثال هایی مفهوم وب اسکرپینگ و انواع ماژول های آن در پایتون را آموزش دهیم.