یکپارچه سازی داده ها (Data Integration) در بسیاری از زمینه ها و به ویژه در زمینه سلامت و امور پزشکی، می تواند به متخصصین و پزشکان کمک کند تا تصمیم های دقیقتری را اتخاذ نمایند. سیستم های داده های پزشکی و مدل اطلاعاتی آنها عموما به صورت مستقل از هم توسعه داده می شوند. در نتیجه یکپارچه سازی داده در زمینه سلامت و امور پزشکی، داده ها از سیستم های متفاوت باید با یکدیگر ترکیب و ادغام شوند.

مشکلی که وجود دارد این است که حجم بسیار زیاد داده های سوابق پزشکی بیماران و پیچیدگی آنها باعث می شود تا متخصصین این حوزه در دریافت یک دید متمرکز از وضعیت سلامتی افراد، دارای مشکلات فراوانی باشند. ایجاد یکپارچه سازی اطلاعات ثبت شده در مورد وضعیت سلامتی افراد می تواند این مشکل را حل کند.

تحقیق های فعلی در زمینه یکپارچه سازی داده با مشکل تناقض معنایی مواجه هستند. بنابراین راهکارهایی که ارائه می شوند می بایست تناقض معنایی را بر طرف کنند. دلیل تناقض های معنایی وجود لغات متفاوت در سیستم های متفاوت است که به یک معنای مشابه اشاره دارند. یکی از رویکرد هایی که می توان برای برطرف نمودن این مشکل به کار گرفت، استفاده از آنتولوژی است که رویکرد یکپارچه سازی داده ها مبتنی بر آنتولوژی (Ontology-based Data Integration) نامیده می شود.

آنتولوژی امکان ارتباط دادن میان منابع داده ای در یک حوزه خاص را فراهم می کند. با استفاده از آنتولوژی، می توان ناهمگونی معنایی (Semantic Heterogeneity) را پوشش داد و یک سیستم از اطلاعات یکپارچه شده برای استفاده فراهم آورد. ناهگونی معنایی زمانی رخ می دهد که منابع داده ای به صورت مستقل از یکدیگر توسعه داده شده باشند که نتیجه آن وجود تفاوت های معنایی میان مقادیر داده است. در واقع منشا ناهگونی  معنایی تفسیر متفاوت از داده ها است. آنتولوژی یک روش رسمی برای پاسخ دادن و پوشش دادن مشکل های ناشی از تفاوت های معنایی است که میان منابع داده ای وجود دارند.

در زمینه پایگاه داده ها و سیستم های اطلاعاتی، آنتولوژی نقش اساسی را در یکپارچه سازی داده از منابع ناهمگون با تبدیل کردن داده ها به یک نمایش مشترک ایفا می کنند. ناهمگونی معنایی اصلی ترین چالش در یکپارچه سازی داده ها است زیرا لازم است تا ارتباط میان داده ها و معنای آنها نیز در نظر گرفته شود. آنتولوژی نشان دهنده یک خصوصیت مشترک، صریح و روشن از یک دامنه دانش است. آنتولوژی یک تعریف رسمی از لغات استفاده شده و رابطه میان لغات متفاوت از منابع ناهمگون را بیان می کند.

چارچوب توصیف منبع (RDF) استانداردی است که اشیا وب را به عنوان بخشی از توسعه وب معنایی مدل می کند. RDF تنها مختص وب معنایی نیست و در موارد بیشتری مورد استفاده قرار می گیرد. RDF هر حقیقت را به صورت یک سه تایی (Triple) نمایش می دهد که با پیوند دادن این سه تایی ها به یکدیگر اطلاعات جامع تر فراهم خواهد شد.

چارچوب توصیف منابع یک استاندارد بر اساس زبان XML است به طوری که منابع داده ای صرف نطر از نوع و مدل آنها، توسط چارچوب توصیف منبع برای درک،خواندن و پردازش شدن توسط ماشین و برنامه های کاربردی توصیف و آماده می شوند. به طور مثال Yago و DBPedia حقایق را به صورت خودکار از ویکی پدیا استخراج می کنند و آنها را در غالب فرمت RDF به منظور اجرای پرس و جو بر روی آنها ارائه می کند.

سیستم های اطلاعات پزشکی، دارای مدل های متفاوتی برای ارائه داده ها هستند، بنابراین نخستین گام در ارائه یک سیستم یکپارچه، ارائه داده ها از منابع ناهمگون به صورت یک فرمت استاندارد و مشترک است که توسط چارپوب توصیف منبع صورت می گیرد. داده ای ساخت یافته در غالب پایگاه داده های رابطه ای ذخیره می شوند و DB2RDF داده های پایگاه داده رابطه ای را به فرمت RDF تبدیل می کند. همچنین داده ای نیمه ساخت یافته در غالب زبان XML نمایش داده می شوند، بنابراین می بایست این داده ها را نیز به فرمت استاندارد RDF تبدیل نمود.

آنتولوژی های پزشکی با فراهم کردن یک مجموعه از واژگان مشترک، قابلیت همکاری میان سیستم های مختلف را امکان پذیر می کنند. با این حال وجود تنها یک آنتولوژی کارآمد و مفید نخواهد بود، بلکه در عمل می بایست چندین آنتولوژی با یکدیگر ترکیب شوند تا به یکپارچه سازی کمک کنند. بنابراین لازم است ابتدا یک از یکپارچه سازی در سطح آنتولوژی ها صورت گیرد تا یک آنتولوژی واحد و متمرکز فراهم شود. یکی از مشکل های اساسی در مورد اطلاعاتی که در سیستم ها و منابع مختلف ذخیره شده اند این است که اطلاعات تنها برای انسان قابل درک و خوانده شدن هستند. بنابراین لازم است تا اطلاعات به گونه ای توصیف شوند که برای ماشین و برنامه های کاربردی نیز قابل درک،خواندن و پردازش شدن باشند.

با استفاده از چارچوب توصیف منبع و رویکرد داده های پیوند شده، منابع داده های به گونه ای توصیف شوند که توسط ماشین قابل درک، خواندن و پردازش باشند و سپس برای فراهم آوردن اطلاعات جامع تر، این منابع به یکدیگر پیوند داده شوند. برای انجام این پژوهش روشی ارائه خواهیم داد که با استفاده از آنتولوژی و رویکرد داده های پیوند شده اقدام به یکپارچه سازی اطلاعات پزشکی می نماییم. کلیات روش پیشنهادی به این صورت خواهد بود که ابتدا با استفاده از تبدیل اطلاعات سیستم ها به فرمت RDF می کنیم.

واژه های با اهمیت داخل متون پزشکی مرتبط با افراد، استخراج شده و این واژه ها با استفاده از یک آنتولوژی پزشکی مورد پیش پردازش واقع شده و واژه های پزشکی با واژه های کلی تر بر اساس آنتولوژی مذکور جایگزین می گردند تا داده های پزشکی افراد بیشتر به هم مرتبط شوند.

اعمال آنتولوژی، اقدام به یکپارچه سازی اطلاعات خواهیم کرد تا یک انبار داده از اطلاعات نیمه ساخت یافته در غالب فایل های RDF فراهم شود. سپس با استفاده از رویکرد داده های پیوند شده، منابع توصیف شده را که اطلاعات متفاوتی درباره بیماران نگه داری می کنند را به یکدیگر پیوند داده تا اطلاعات جامعی از منابع مختلف بدست آید. رویکرد داده های پیوند شده امکان انتشار و پیوند دادن منابع داده مختلف را می دهد تا با پیوند دادن این منابع بتوان اطلاعات جامع تری از منابع مخلف کسب کرد به طوری که هر کدام از این منابع به صورت مجزا از یکدیگر اطلاعات خود را نگهداری می کنند.