بیشتر تصاویری که ما (یا رایانه ها) به آنها نگاه می کنیم با دوربین نوری گرفته شده است که دنیای سه بعدی ما را بر روی یک صفحه حساس به نور دو بعدی نشان می دهد. همه ما با این واقعیت آشنا هستیم که اشیاء دور درون یک تصویر، با اندازه های کوچکتر در تصویر آشکار می شوند.

در شکل زیر که گل های آفتاب گردان در فاصله های دور تا نزدیک را نشان می دهد، می توانید ببینید که مقیاس (Scale یا اندازه) هر شی (گل آفتاب گردان یا چهره انسان یا هر شی دیگری) درون تصویر به فاصله آن از دوربین بستگی دارد. یک سیستم بینایی مانند چشم انسان یا رایانه باید بتواند که همه اشیا در اندازه های گوناگون را ببینید.

بنابراین تصویر باید در همه سطوح مقیاس ها به طور همزمان پردازش شود. هر چه فاصله اشیا به دوربین نزدیکتر باشد، قابل فهم تر و پر معنی تر هستند و در پردازش تصویر این چند مقیاسی اشیا باید در نظر گرفته شود.

فضای مقیاس

شاید به نظر برسد که روش های بسیار زیادی برای ساختن یک فضای مقیاس وجود دارد ولی تنها روش، بلور گوسی (Gaussian Blur) است. بنابراین برای ساخت فضای مقایس (Scale Space)، با داشتن تصویر اصلی و اولیه، تدریجی تصویرهای بلوری (Blurred Images) را می سازیم.

یک فضای مقیاس ، نمایش یک تصویر در سطوح مختلف وضوح (Resolution) است. تصویر تابع (ℓ(x,y از دو مختصات x و y است. فضای مقیاس (ℓ(x,y,σ یک مختصات سوم σ می افزاید. یکی از گونه های فضای مقیاس، فضای مقیاس گوسی (Gaussian Scale Space) است که در آن تصویر مقیاس (ℓ(x,y,σ با هموار سازی تصویر اولیه (ℓ(x,y به کمک کرنل فیلتر گوسی (Gaussian Filter) بدست می آید. معادله شکل زیر فضای مقیاس گوسی از تصویر اولیه (ℓ(x,y را نشان می دهد.

در شکل بالا دو معادله نشان داده شده است که دومین معادله مربوط به کرنل فیلتر گوسی است که بر روی تصویر برای ساخت فضای مقیاس اعمال می شود. فهرست زیر بخش های گوناگون از معادله یکم در شکل بالا را توضیح می دهد.

  • (ℓ(x,y,σ تصویر تار (Blur) شده به کمک فیلتر Gaussian Blur است.
  • gσ کرنل دو بعدی گوسی است.
  • ℓ تصویر است. همان (ℓ(x,y است.
  • x و y دو مختصات هستند.
  • σ پارامتر مقیاس است که می توانید آن را برابر با اندازه تار شدن در نظر بگیرید. از این رو هر چه مقدار آن بیشتر باشد، تار شدن نیز بیشتر می شود.

فضای مقیاس، یک تئوری رسمی برای پردازش ساختارهای تصویر (Image Structure) در مقیاس های گوناگون است. در نمایش مقیاس فضا (ℓ(x,y,σ، اگر 0=σ باشد، پس مطابق با تصویر اصلی و اولیه ℓ است. در شکل های زیر به ترتیب از بالا به پایین و از چپ به راست، پارامتر σ، برابر با مقدارهای 0 و 1 و 4 و 16 و 64 و 256 است.

بنابراین بر پایه شکل های بالا، در تئوری فضای مقیاس، یک سری از تصویرهای هم خانواده داریم که هر یک فضای مقایسی را نمایش می دهند. هر چه اندازه پارامتر σ باشد، تصویر اولیه تارتر شده و از این رو جزییات بیشتری از درون تصویر کاسته (حذف) می شود. در الگوریتم SIFT، با داشتن یک تصویر اولیه، تدریجی تصویرهای تار (Blur) شده را می سازیم، سپس تصویر اولیه را نیم (نصف) می کنیم و سپس دوباره تصویرهای تار شده را می سازیم.