مقاله ساپورت بازيابي اطلاعات درمورد ساخت و استفاده آنتولوژي
دسته بندي :
فنی و مهندسی »
کامپیوتر و IT
مقاله ساپورت بازيابي اطلاعات درمورد ساخت و استفاده آنتولوژي در 23 صفحه ورد قابل ويرايش
ساپورت بازيابي اطلاعات در مورد استفاده وساخت آنتولوژي (antology)
چكيده:
بازيابي اطلاعات ميتواند به ساخت آنتولوژيها و كاربرد مؤثر و مفيد آنها، كمك كند. ما از استخراج واژة اصلي مبتني بر تركيب و تجانس (Collocation)، جهت ارائه مفاهيم جديد، استفاده و در مورد ارائة ارتباط وسيع جهت اتوماتيك سازي جمعيت آنتولوژي با مثال، مطالعه ميكنيم. ما، متدهاي خود را در تنظيم پروژة كتابخانة ديجيتال، با استفاده از متدولوژي ارزيابي اطلاعات، ارزيابي ميكنيم. در يك تنظيم مشابه، در مورد متدهاي بازيابي مطالعه ميكنيم كه ساپورت جهتيابي ارائه شده توسط روابط معنايي و لغوي موجود در اغلب آنتولوژيها را جهت كمك به كاربران در بررسي آنتولوژي تكميل ميكنند.
مقدمه:
متدهاي جستجو، جهت يابي و سازماندهي اطلاعات اينترنت رايج امروز، دهههاي تحقيق دوره بازيابي اطلاعات را پايه و مبنا قرار ميدهند. اين متدها مبني بر قوانين آماري كنترل كنندة استفاده انسان از زبان، نه تنها در بازيابي سند و مدرك، بلكه در امورغنيتر به لحاظ معنايي مثل پاسخگويي به پرسش، مورد استفاده قرار ميگيرند. يك شكل Semantic Web اين است كه بسيار شبيه به Web است كه ما امروزه ميشناسيم و انتظار داريم كه اسناد مدارك، سرشار از منافع قابل فهم باشند. اين تفسيرها را در مورد اسناد وعبارات قابل توجيهي كه در جستجوي معاني مضمون اسناد ومدارك هستند، ارائه خواهند داد. ما توضيح ميدهيم كه صورتهاي صرفي IR چگونه ميتوانند در اين امر، با كمك آرشيتكتهاي آنتولوژي غيرمعمولي، مؤثر باشند. تكنيكهاي IR ميتوانند به تعريف، تشخيص و بررسي ثبات و تداوم آنتولوژي كمك كنند. هشت مرحله ميتوانند در پروسه ايجاد آنتولوژي متمايز شوند.
1- تعيين محدودة آنتولوژي
2- توجه به استفادة مجدد از قسمتهاي مربوط به آنتولوژي موجود
3- بر شماري و ذكر كلية مفاهيمي كه ميخواهيد
4- تعريف و تشخيص تاكونومي اين مفاهيم
5- تعريف و تشخيص ويژگيهاي مفاهيم
6- تعريف و تشخيص جنبههايي از مفاهيم مثل اصول و ارزشهاي مورد نياز وغيره
7- تعريف و تشخيص نمونهها
8- بررسي ثبات و تداوم آنتولوژي
ما، از ميان اين مراحل، مراحل 3 و7 را با تكنيكهاي مبتني بر IR بررسي كرده و معتقديم كه اين مراحل ميتوانند به طور مفيدي با استفاده از تكنولوژي بازيابي قابل دسترس امروزي، انجام شوند. مرحلة 4 براي اتوماتيك سازي، مناسب است، در عين حال، مسئله حلشدهاي به شمار نمي رود و مرحله 8 در مورد متدهاي استدلال سمبوليك به گونهاي كه مثلاً در PACER و FACT اجرا ميشوند، بهترين گزينه است. تكنيكهاي IR ، علاوه بر اينكه جهت كمك به سازندگان آنتولوژي مورد استفاده قرار ميگيرند، ميتوانند در جستجو، مرورگري و ارائه موارد غيرمترقبه نيز به كاربران كمك كنند. مردم تمايل دارند كه از Semantic Web شركتها جهت جستجوي اسناد و مدارك، بلكه جهت جستجوي اطلاعاتي در مورد روابط معنايي خاص، مثلاً در تنظيم كتابخانه هاي ديجيتال، استفاده كنند. بنابراين، روشهايي را جهت «بازيابي در يك سلسله مراتب مفهومي» ارائه ميدهيم، كه در آنها به جستجوي واقعي هماهنگي به نحوييكه توسط اغلب ابزارهاي جهتيابي و ويراستارهاي آنتولوژي ارائه ميشود. ممكن است مناسب و كافي نباشد. پيشرفتهاي گذشته، با ايجاد آلگوريتمهاي بازيابي سند و مدرك مفيد امروزي جهت ايجاد و بهكارگيري زيرساختار Semantic web، مستقيماً منجر به ايجاد پيشرفتهايي در آينده ميشوند. اما دليل متدولوژيكي بيشتري براي نزديك تر كه من اقدامات Semantic web در IR به هم داريم، جامعه IR بر اهميت ارزيابي، تأكيد كرده است. با ظهور كنفرانسهاي بازيافت متن (IRC)، ارزيابي آزمايشي امور مربوطه به بازيابي، به پيشرفت چشمگيري رسيده كه منجر به پيشرفت سريع در امور ارزيابي شده، شده است. منافع مشابهي با اقدامات ارزيابي مربوط به بازيايب و اقدامات مربوط به امور پردازش زبان غنيتر به لحاظ معنايي، وجود دارند. جامعه Semantic web، از تأكيد شديدتر بر ارزيابي و اموري كه ميتوانند ارزيابي شوند، سود ميبرد. با خوردن غذاي سگ خود، ارزيابي تجربي در مورد كليه امور مورد بررسي در اين مقاله انجام ميدهيم.
بخش 2، تنظيمي را بررسي ميكند كه كلية امور در آن رخ ميدهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوري امكان دستيابي مبتني بر آنتولوژي به يك كتاب راهنماي الكترونيكي در فصل مشترك و واسط زبانشناسي و منطق. در بخش 3، اتوماتيك سازي مرحله 3 و ارزيابي آنرا، توصيف ميكنيم. در بخش 4، در مورد اتوماتيك سازي مرحله 7 و ارزيابي آن، صحبت ميكنيم در بخش 5، جستجو در سلسله مراتب مفهوم LaLaLi را ارزيابي ميكنيم. در بخش 6، نتيجه گيري ميكنيم.
2- LoLaLi:
كارما، و آزمايشات مربوط به آن، در تنظيم پرونده كتابخانه ديجيتال، انجام شدند. پروژه LoLaLi ، متدهايي را جهت گسترش مزمت قديمي كتابهاي راهنمايي علمي با ابزارهاي الكترونيكي ، ارائه ميدهد. اين ابزارها به خوانندگان كمك مي كنند كه به مضمون و محتواي كتاب راهنما دست يابند و اين ابزارها، يافتن اطلاعات مربوطه را آسانتر ميسازند.
طبق اين مطالعه ، پروژه Handbook of Logic and Language در فصل 20 ص 1200 تمركز دارد، مانند آزمايشات از منابع Latex استفاده كرديم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوري امكان دستيابي به كتاب راهنما استفاده ميكند. سلسله مراتب مفهوم، غالباً جهت جهت يابي از طريق تركيبها و تجانسها اسناد در مدارك، مورد استفاده قرار ميگيرند. آنها براي سازماندهي، نمايش دهي و ارائه اطلاعات متعدد،مفيد واقع ميشوند، و كاربراني در جستجوي يك hypertext هستند و داراي الگوهاي مرورگري سلسله مراتبي هستند، بهتر از كاربران داراي مسيرهاي مرورگري متوالي، اين كار را انجام ميدهند. از اينرو، معماريهاي مربوط به كتابهاي راهنماي الكترونيكي بايد الگوهاي سلسله مراتبي را توجيه كننده يك سلسله مراتب مفهومي، روش مناسبي براي انجام اين كار باشد. سلسله مراتب مهم LoLaLi با دست و توسط متخصصين اين رشته كه اخيراً حدود 600 مفهوم را جمع آوري، سازماندهي و مرتبط ساختهاند، ايجاد ميشود و يك سرويس دهنده مبتني بر secame ، اطلاعات سلسله مراتبي را ذخيره ميكند كه از طريق يك مجموعه از نوشتهجات و Protégé هدفمند، ويرايش و به روز رساني ميشود. ما در بخش 3، توضيح ميدهيم كه تكنيكهاي اصلي IR، چگونه ميتوانند به نويسندگان در تعيين و انتخاب مفاهيمي جهت تحول در سلسله مراتب، كمك كنند.
هر مفهوم در سلسله مراتب LoLaLi، با يك توضيح و تفسير، حاشيه نويسي ميشود كه به طور خلاصه، آنرا توصيف ميكنند. بعلاوه، مفاهيم داراي توصيفات طولانيتري هستند و آنها هم توسط نويسندگان، ارائه ميشوند. سلسله مراتب، از يك مفهوم TOP با چهار شعبة اصلي در زير آن تشكيل ميشود : علم كامپيوتر، رياضيات، زبانشناسي و فلسفه كه توسط روابط زير موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهي و تنظيم ميشوند. اين روابط، تايپ مي شوند و تايپها عبارتند از “per-of”,”is-a” هستند. سلسله مراتب در LoLaLi، بيشتر يك نمودار است يا يك قالب دقيق و واضح شكل 1 . روابط غيرسلسله مراتبي نيز در نظر گرفته شده و به منظور اهداف جهت يابي مورد استفاده قرار ميگيرند؛ اين روابط مشتمل بر Sibing(همشيره و خواهر)، “معاني ديگر” و “مفاهيم مربوطه” مي باشند. مفاهيم موجود در سلسله مراتب LoLaLi نيز به منابع خارجي ارتباط دارند. مورد اصلي در ميان اين روابطHand book of Logicians lenguage ميباشد، مثالهاي ديگر مشتمل بر روابط با ابزارهاي مستقيم (on line) مربوطه ميباشند روابط با Handbook ، مفهومي را در سلسله مراتب، به عنوان منبع وبخشهاي مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ ميكنند. در بخش 4، ما توضيحميدهيم كه چگونه تكنيكهاي IR به بررسي اين امر كمك ميكنند.
در حال حاضر ، كابران ميتوانند به شكل “آساني”سلسله مراتب دست يابند از نتايج مطالعة يك كاربر، جهت يابي در راستاي روابط معنايي فوق اينكه، با تسهيلات جستجوي كامل شده است كه كاربران را مجاز ميسازد مفاهيم موجود در سلسله مراتب را به شيوهاي اختياري، بيابند. دربخش 5، ما تكنيكهاي اصلي IR را ارزيابي و توصيف
ميكنيم.
5- جستجو در آنتولوژي
پس از بخش 3 و4 ، كه هدفشان، ساپورت IR در مورد ساخت آنتولوژي بود، مسير را عوض كرده وبه بررسي ساپورت كاربران نهايي مي پردازيم كه به منظور اهداف جهت يابي به آنتولوژي ها دستيابي دارند. پروسه مرورگري از طريق آنتولوژي جهت يافتن يك مفهوم ، مي تواند تصور مناسبي در مورد چگونگي سازماندهي آنتولوژي و چگونگي ارتباط مفاهيم، به كاربر ارائه دهد، اما اين پروسه همچنين ميتواند پروسه مشكل و سختي باشد. مثالهاي مربوط به عدم موفقيت مرورگري در پروسه دستيابي به اطلاعات، مشخص هستند. و مشتمل بر مواردي مي باشند كه ممكن است در سلسله مراتب موجود نباشند. در چنين مواردي، تكنيكهاي IR ميتوانند اين نياز به اطلاعات را بررسي كنند. IR به جاي تبعيت زا روابط معنايي در يك آنتولوژي به دستيابي تصادفي بر يك آنتولوژي و تفسير انعطاف پذير نياز اطلاعاتي كاربر اشاره ميكند.
امري كه ما در اين بخش بررسي مي كنيم به شرح زير است، يافتن مفاهيم مربوط به يك پرسش معين در سلسله مراتب مفهومي، به عبارت ديگر، نيازهاي اطلاعاتي كاربران، با استفاده از واژههاي اصلي اختياري و انتخابي تنظيم ميشوند، در حاليكه “اسناد و مدارك” ،مفاهيم موجود در سلسله مراتب LoLaLi ميباشند.
1-5- تحت يك سرپوش (Under the Hand)
ما در زمان سعي جهت بازيافت مفاهيم مربوط از يك آنتولوژي ، بايد با چند مسئله سروكار داشته باشيم، از پرسشهاي تمايل دارند كه بسيار كوتاه باشند. تعداد واژههاي اصلي درهر موضوع ، مي توانند برابر با تعداد پرسشهاي محرك جستجوي وب، به طور ميانگين دو واژه اصلي در هر موضوع، باشند.2/ اسناد ومدارك نيز بسيار كوتاه هستند. حتي اگر توصيف وسيعي در مورد مفاهيم داشته باشيم، اسناد و مدارك بازيافت شده، در مقايسه با مجموعههاي آزمايش استاندارد، كوتاه هستند. 3/ مجموعه اسناد و مدارك كوچك ميباشد. اين امر، بدين معناست كه ممكن است يادآوري ،مسئله مهمي باشد. بازيابي در برابر سلسله مراتب LoLaLi ، يك كار بسيار دقيق است اما داراي شرايط و نيازهاي يادآوري مي باشد.