نمایه سازی موتورهای وب و اهمیت آن در بازیابی اطلاعات جهان مجازی

چکیده
با پیدایش دنیای مجازی شاهد ظهور انقلاب دیگری تحت نام انقلاب اطلاعات هستیم.  از سوی دیگر حجم انبوه اطلاعات کاربران را بر آن داشته تا به کیفیت اطلاعات بیش از کمیت آن بیندیشند. اطلاعات روز آمد، دقیق و معتبر سه ویژگی مهمی است که لازمه کار هر محقق می باشد. لذا رشد فناوری های نو ظهور، روشهاي جدیدی را به منظور سازماندهی اطلاعات جهت بازیابی دقیق آن به یاری می طلبد.
با استفاده از روشهای نوین سازماندهی، اطلاعات مفید از اطلاعات سیال و ناپایدار استخراج شده و کاربر به سهولت می تواند به اطلاعات مورد نياز خود دسترسی پیدا کند. یکی از مهمترین این راهکارها، نمایه سازی وب است. دنیای وب با مدد از این راهکار دریچه ای نو را به روي کابرانمي‌گشايد. در این مقاله می کوشیم تا با نگاهی به نمایه سازی وب، به بررسی انواع نمایه، نمایه سازی در موتورهای جستجو، ابر موتورها و ابر داده ها از جمله ابر داده دوبلین کور ، بازنمود نمایه در وب و معرفی نرم افزارهای نمایه سازی بپردازيم و بستری مناسب جهت اهمیت و نقش آن در بازیابی اطلاعات جهان مجازی فراهم آوریم.
 کلید واژه ها: نمايه[1]، نمایه سازی وب[2] ، موتور جستجو[3]، ابر موتور جستجو[4]، ابر داده[5]،دوبلين كور[6]، بازنمود نمایه

 

مقدمه
 رشد تصاعدی فضای اطلاعاتی وب، آلودگی اطلاعات را دامن زده است، از سوی دیگر وجود اطلاعات میرا و سیال اهمیت نمایه سازی وب را بیش از پیش مطرح می سازد. لذا آنچه که  براي كاربران وب مهم است، دستيابي سريع و آسان به اطلاعات دقيق، روزآمد و داراي اعتبار مي باشد، نه حجم انبوه اطلاعات. نمایه سازی کارآمد، به کاربر امکان بازیابی اطلاعات دقیق، صحیح و روز آمد را می دهد. به بيان ديگر نمایه سازی وب فرآیند پالایش و فیلتر  اطلاعات دنیای وب است و نمایه ساز پالاینده  اطلاعات آن. بايد دانست كه نمايه سازي وب مفهوم جديدي نيست.
  
نمایه سازی وب
با گسترش حجم انبوه اطلاعات و به اشتراک گذاری آن و رویکرد روز افزون برقراری ارتباطات از طریق اینترنت بحث سازمان دادن اطلاعات به قصد سهولت در بازیابی مطرح می باشد. یکی ازکارآمدترین روشهای بازیابی، نمایه سازی وب     می باشد. نمایه وب منابعی را که از طریق  world wide webدر دسترس هستند جمع آوری و سازماندهی مینماید و نقطه شروعی برای یافتن اطلاعات می باشد. در وب نمایه ها ممکن است به روشهای گوناگونی سازماندهی شوند. شیوه سازماندهی یک نمایه با نمایه دیگر فرق میکند، نمایه ها می توانند به طور الفبایی، موضوعی (رده ای) و … سازماندهی شوند. نمایه های موضوعی اغلب منابع شان را طبق یک نظم سلسله مراتبی از اعم به اخص مرتب می کنند.. نمایه های وب برای نشان دادن لیستهای منابع خود ازپیوندهای فرا متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند. عموما تمام نمایه ها یک نقطه اتصال دهنده مستقیم به منابع فهرست شده را به کاربران عرضه می کنند.
 لذا این نکته به خوبی قابل احساس است که ساختارهای وسیع و جامع یک متن برای دسترسی آسان تر نیاز به سازماندهی و نظم منطقی دارند. از دید یک محقق یا کاربرمعمولا دسترسی آسان به اطلاعات به بیش از یک استراتژی جستجو نیازمند است و نهایتا همه آنها به فرآیند سازماندهی فایلهای HTML درزیر فهرستهایی منتهی می شوند.
این زیر فهرستها هم به تهیه کننده اطلاعات و هم به کاربر وب سایت کمک می کند. در این حالت کاربر می تواند براساس یک کد، یک نام فایل،یا محتوای یک عنوان جستجو کند.به عنوان مثال يكي از راههاي دسترسي به اين موارد برنامه ای به نام CGI مي باشد.[ http://www.cu.edu/]
 نمایه های وب برای نشان دادن لیستهای منابع خود از پیوندهای فرا متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند.
 
تعدادی از نمایه های مشهور وب به شرح ریر می باشند:[ : http://www.ext.nodak.edu/ ]

●Yahoo!TM
●The WWW Virtual Library
●Trade Wave Galaxy
●فهرست خدمات اینترنتی Yanoff
●The Argus Clearinhouse
●Magellan
●Point

 دو عامل مهم در نمایه سازی وب
نمایه، یک مخزن جامع از اطلاعات در دسترس نیست اگر چه آنها می توانند هزاران منبع را فهرست کنند. در واقع نمایه های وب ما را به فهرستها و راهنماها ارجاع می دهند. این نوع نمایه ها نیاز به یک نرم افزار و یک زبان نمایه سازی خاص دارند.

الف- زبان نمایه سازی
زبان نمایه سازی آن دسته از واژگان نمایه سازی است که در نظام خاصی از ذخیره و بازیابی مورد استفاده قرار می گیرد. "زبان " می تواند طبیعی، یعنی زبان مدرک نمایه سازی شده باشد، یا ساختگی یا کنترل شده باشد(یعنی از نوعی تنظیم برخوردار باشد. (سلطانی، 1382، ص 180)
عملکرد نظام بازیابی متاثر از کیفیت زبان نمایه است. وجود نمایه سازی و جستجوی خوب نمی تواند زبان نمایه نامناسب را جبران کند به عبارت دیگر کاربران اطلاعات فقط به آن اندازه می توانند عمل نمایند که زبان نمایه مجاز می شمارد. ناتواناییهای زبان نمایه بر دو نوع است: 1-عدم توانایی به خاطر ویژگی در اصطلاحات 2-عدم توانایی به خاطر ابهام یا روابط کاذب بین اصطلاحات. (لانكاستر، 1379، ص179)
 عمدتا زبانها دو نوع هستند:
 1- زبانهاي مهار شده (Controlled language)
اين زبانها، حاوي اصطلاحاتي هستند كه براي نمايه سازي مدارك انتخاب و پذيرفته شده اند، فهرست ها سر عنوانهاي موضوعي و اصطلاحنامه ها دو شيوه متفاوت زبان نمايه سازي مهار شده است. اصطلاحنامه پس از شرح زبانهاي آزاد توصيف مي شود.
 2- زبانهاي آزاد (Free language)
در اين نوع زبانها محدوديتي ازنظر نوع واژه وجود ندارد، هر واژه يا اصطلاح مي تواند بدون قيد و شرط از زبان طبيعي گرفته شود، يعني عينا از زبان مدرك نقل گردد و يا متناسب با موضوع مدرك تعيين شود. ازنمايه سازي به زبان طبيعي هم مي توان در ساخت واژگان موضوع الكترونيكي و هم در توليد نمايه نامه هاي چاپي استفاده كرد. يكي از كاربردهاي نمايه سازي به زبان طبيعي توليد نمايه هايي است كه مبتني بر واژه هاي عنوان مي باشد. مانند: نمايه كوئيك، نمايه كووك و نمايه جايگشتي.(داورپناه،1381،ص33)
 ب- نرم افزارهای نمایه سازی وب
بسته به اینکه در وب مورد نظر چه اطلاعاتی را می خواهیم نمایه سازی کنیم (اطلاعات می توانند یک سند، یک Full text ، تصاویر و … باشند) نرم افزارهای گوناگونی برای نمایه سازی وب موجود می باشد:
 
نرم افزارهای نمایه سازی وب

Advanced Java Tree Menu
PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
ActMon Password Recovery XP
Internet Macros Web Test Recorder

 نرم افزارهای نمایه سازی لینکها

PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
Registry First Aid
IEManager
Advanced Java Tree Menu

 نقش موتورهای جستجو در نمایه سازی وب
حجم انبوه اطلاعات وب و عدم نمایه سازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکار گیرند و راهکاری مناسب جهت نمایه سازی را فراهم آورند. از سوی دیگر برخی از وب سایت ها برای اطمینان از بازیابی بیشترین رتبه بندیهای مرتبط، از اصطلاحات کلیدی استفاده  می کنند، این در حالی است که تعدادی دیگر از نمایه سازی کور بهره می گیرند.
مشکل اصلی این نوع نمایه سازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل می شود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند. (دیگان، 1382، ص 161)
موتورهای جستجو، ابر موتورها و ابر داده ها در واقع ابزارهای کمکی برای نمایه سازی و ارائه اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند.
نمايه ها اساس كار موتورهاي جستجو در رتبه بندي نتايج جستجو و تركيب منطقي واژه ها (جستجوي بولي) براي بازيابي اطلاعات در اينترنت را تشكيل مي دهد. اما بزرگترين موتورهاي جستجو هم قادر به نمايه سازي وب نيستند. برخي از اين موتورها نظام نمايه سازي تمام متن دارند و هر واژه موجود درمتن به جز واژه هاي فاقد بار اطلاعاتي مانند حروف اضافه، ربط و تعريف را نمايه مي كند. برخي بخشي از منبع را نمايه مي كنند.برخي ديگر، سرعنوانها، عناوين فرعي و فراپيوندها را همراه 20 خط ابتداي متن و 100 كلمه اي كه از بسامد بالايي برخوردار است، نمايه مي كنند. (داورپناه،1381،ص 84)
از دیدگاه مدیریت نظام اطلاعاتی چهار ویژگی اصلی برای اطلاعات بازیابی شده قابل لحاظ است: دقت[7]، پیوستگی زمانی[8]، بهنگام بودن[9] و مرتبط بودن[10].(منتظر،1380، ص 31) لذا نمایه سازی باید بر مبنای چهار ویژگی مذکور انجام پذیرد. بنابراین جهت رسیدن به نمایه سازی جامع و مانع وب به نمایه سازی دقیق موتورهای جستجو نیاز داریم.
 
انواع نمایه سازی موتورهای جستجو
نمایه سازی وب می تواند از طریق روشها و ابزارهای اتوماتیک یا به وسیله نیروی انسانی انجام بگیرد. در نمایه سازی از نوع دوم اشخاص حقیقی منابع را شناسایی و جمع اوری می نمایند، سپس آنها را بازبینی، سازماندهی و طبقه بندی می کنند.
موتورهای جستجویی مانند گوگل توسط یک  web Crawler شاخص گذاری شده اند.  Web Crawler ابزاری است که در لابه لای شبکه جهانی وب می خزد و سایت های جدید را مورد جستجو قرار می دهد؛ چنانچه وب سایت جدیدی یافت شد آدرس آن به پایگاه داده اضافه می گرد.
فهرست موتور جستجوی گوگل شامل بیش از یک بیلیون URL می باشد. قلب این موتور نرم افزار Page Rank TM است، سیستمی برای رتبه بندی صفحات وب که توسط لری پیچ و سر جی برین، موسسان آن، در دانشگاه استن فورد ساخته شده است. رتبه صفحه با استفاده از ساختار لینک معتبر بر روی خاصیت دموکراتیک منحصر به فرد تکیه می کند. گوگل لینکها را از صفحه الف تا ب چک می کند و از آراهای مختلف دریافت شده برای این رتبه بندی استفاده می کند. صفحات با کیفیت بالا Page Rank TM بالاتری دریافت می کنند که گوگل بعد از هر جستجو به خاطر می سپارد. گوگل از ترکیب Page Rank TM و روشهای پیشرفته جور کردن متن برای یافتن صفحات با اهمیت و در عین حال مربوط به متن جستجو شده استفاده می کند. همچنین از تعداد تکرار کلمات متن جستجو شده پا فراتر نهاده و برای تشخیص اینکه این صفحه با کلمات مورد جستجو هماهنگی دارد، تمام وجوه محتوای صفحه و صفحات متصل شده به آن را بررسی می کند.
 موتورهای جستجوی altavista, Hotbotو Excite  برای تفسیر پایگاه داده خود از ترکیب ماشین و انسان استفاده می کنند، در صورتی که موتور جستجوی  Yahooتوسط انسان ترجمه می شود. کاربران آدرسURL وب سایت های خود را برای موتور جستجو ارسال می کنند، سپس سایت مربوطه مورد بازبینی قرار می گیرد و یک انسان سایت را طبقه بندی می کند و در مورد عبارات جستجوی مربوطه تصمیم گیری می کند. در موتور جستجوی Yahoo ابزارهای نمایه سازی چشمشها و بازوهای انسان جهت تصمیم گیری اینکه کدام کلید واژه ها و اقلام مناسب هستند و سپس نمایه سازی صحیح مطرح است.
این در حالی است که بسياري از سايت‌هاي وب،  از روش «نمايه انتهاي كتاب در وب» برنامه‌اي براي جستجوي سايت خود طراحي كرده‌اند. اين برنامه‌ها همچون جستجو در فايل‌هاي تمام متن مي‌تواند در نتايج جستجوي خود داراي مدارك نامرتبط و در اصطلاح همراه با ريزش كاذب باشد.اگر در چنين سايت‌هايي نمايه‌اي شبيه آنچه در انتهاي كتاب‌ها ديده مي‌شود به وجود آيد، مراجعه‌كننده مي‌تواند به سرعت و با استفاده از ليست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان كمتري به مدارك مورد نياز خود وحتي به مدارك مرتبط با آن نيز دسترسي يابد.
سايت وب شركت نرم‌افزاري Adobe با داشتن نمايه‌اي از نوع كواك(1) و نيز موتور كاوش ويژه سايت، سعي در بالا بردن دسترس‌پذيري موثر اطلاعات سايت خود نموده است.سايت دانشگاهي جورج تاون نيز نمايه موضوعي A-Z را در قسمت ابزارهاي دسترسي به اطلاعات در صفحه خانگي خود قرار داده است. (كميجاني)
 
فن آوری موتورهای جستجو
وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، كاربران در واقع نتيجه كار بخش هاي متفاوت موتور جستجوگر را مي بينند. موتور جستجو اطلاعات را از پايگاه اطلاعاتي خود مورد جستجو و بازيابي قرار مي دهد و اينطور نيست كه همان لحظه اطلاعات را از اينترنت به دست آورد، بلكه از قبل اطلاعات را از اينترنت گرفته و در پايگاه خود ذخيره   مي كند.
در ابتدا مرحله گردآوري اطلاعات صفحات وب را داريم از طريق روباتهاي اطلاعاتي مي توانيم به جستجوي مستمر و مداوم اطلاعات در صفحات وب بپردازيم. از جمله روباتهاي اينترنت مي توانيم به Spider ها و Crawler ها اشاره كنيم.
اسپايدر، اينترنت را براي اسناد جديد وب مورد جستجو قرار مي دهد و آدرسهاي آنها و اطلاعات مربوط به محتوا را در بانك اطلاعاتي قرار مي دهد كه با موتور جستجو مي توان آن را در دسترسي قرار داد.( (هيئت مولفان و ويراستاران انتشارات ميكروسافت،1382،ص 544) كار اسپايدر بازبيني كدهاي HTML صفحات وب مي باشد در حالي كه كاربران وب  نتيجه حاصل از كنار هم قرار گرفتن اين كدها را مي بينند.


   
 
 شكل 1- نتيجه حاصل از قرار گرفتن كدها و آنچه كه كاربر مي بيند
 

شكل 2 – آنچه اسپايدرها مي بينند


در حالی که كراولر، نرم افزاري است كه به عنوان يك فرمانده براي اسپايدر عمل مي كند و مشخص مي كند که اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع کراولر تصميم مي گيرد كه كدام يك از لينك های صفحه ای كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممكن است قبلا" برنامه ريزي شده باشد که آدرس های خاصی را طبق برنامه، در اختيار اسپايدر قرار دهد تا از آنها ديدن کند. دنبال كردن لينك های يک صفحه به اين بستگي دارد كه موتور جستجوگر چه حجمي از اطلاعات يک سايت را مي تواند در پايگاه  داده هایش ذخيره كند و همچنين ممكن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.  تنظيم ميزان دسترسي موتورهاي جستجوگر به محتوای يک سايت توسط پروتكل Robots انجام مي شود. (http://www.iranseo.com)
سپس اطلاعات جمع آوري شده توسط اسپايدر در اختيار ايندکسر قرار مي گيرد. در اين بخش اطلاعات ارسالي مورد تجزيه و تحليل قرار مي گيرند و به بخش هاي متفاوتي تقسيم مي شوند. تجزيه و تحليل بدين معني است كه مشخص می شود اطلاعات از كدام صفحه ارسال شده است، چه حجمي دارد، كلمات موجود در آن كدام است، چندبار تكرار شده است، در كجاي صفحه قرار دارند و … . در حقيقت ايندکسر، صفحه را به پارامترهای آن خرد می کند و تمام اين پارامترها را به يک مقياس عددی تبديل می کند تا سيستم رتبه بندي بتواند پارامترهای صفحات مختلف را با هم مقايسه کند. در زمان تجزيه و تحليل اطلاعات، ايندکسر براي كاهش حجم داده ها از بعضي كلمات كه بسيار رايج هستند صرفنظر مي کند. كلماتي نظير a ، an ، the ، www ، is و … . از اين گونه كلمات هستند.( http://www.iranseo.com)
آنگاه داده هاي تجزيه و تحليل شده در ايندکسر، به پايگاه داده ارسال مي گردد. در اين بخش داده ها گروه بندي، كدگذاري، در صورت لزوم فشرده و ذخيره مي شوند.يك موتور جستجوگر بايد پايگاده داده عظيمي داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قديمي را هم به روز رسانی نمايد. بزرگي و به روز بودن پايگاه داده يك موتور جستجوگر براي آن امتياز محسوب مي گردد. يكي از تفاوتهاي اصلي موتورهاي جستجوگر در حجم پايگاه داده آنها و همچنين روش ذخيره سازي داده ها در پايگاه داده است.(http://www.iranseo.com)
سرانجام در هنگام جستجو نرم افزار كاوش به كاربر اين امكان را مي دهد كه از ميان همه صفحات موجود در نمايه، آنچه را مورد جستجو است، يافته و بر اساس ميزان تناسب و ارتباط آن با درخواست، واژه يا عبارت مورد نظر را رتبه بندي مي كند. در واقع نرم افزار جستجو رابط بين كاربر و اطلاعات نمايه شده است. بخشي از اين نرم افزار كار رتبه بندي اطلاعات بازيافتي را انجام مي دهد.


معمولا برايي رتبه بندي دو ويژگي مهم در نظر گرفته مي شود:
●  محل درج كليد واژه: اينكه كليد واژه در كجاي صفحات وب قرار دارد. كليد واژه اي كه در عنوان قرار دارد به كليد واژه هاي ديگر ارجحيت دارد.
● تعداد تكرار (بسامد) اغلب موتورهاي جستجو ميزان تكرر كليدواژه ها را نسبت به ساير واژه هاي موجود در صفحات وب مي سنجند و واژگاني را كه از بسامد بيشتري برخوردار باشند به عنوان واژگان داراي ارتباط و تناسب بيشتر معرفي مي كنند. همچنين در برخي موتورهاي جستجو مانند Excite وجود پيوندهاي بيشتر در يك صفحه وب به ساير صفحات يا ايستگاههاي اطلاعاتي ارجحيت دارد. (منتظر،1380)
 

شكل 3- ساختارعمومی موتورهای جستجو (منتظر،1380، ص 36)


نمایه سازی وب و ابر موتورها
از ابرداده ها برای جستجو، سازماندهی و بازیابی منابع الکترونیکی موجود در شبکه جهانی اینترنت استفاده می شود.اساس کار آنها همان نمایه سازی موتورهای جستجو می باشد. نکته مهم این است که ابر موتورها دارای پایگاه اطلاعاتی مختص به خود نیستند؛ به گردآوری اطلاعات صفحات وب نمی پردازند؛ صفحات وب را بررسی، طبقه بندی و یا نمایه سازی نمی کنند بلکه کلید واژه ها یا عبارتهای مورد جستجو را به طور همزمان به چند موتور جستجو، که در ساختار ابر موتور تعریف شده است، ارسال می کنند و نتایج را به صورت منظم و طبقه بندی شده ارائه و رکوردهای تکراری حاصل را حذف می نمایند. (منتظر،1380)
تعدادی ابر موتور جستجو در زیر آورده شده است:

Metacrawler, Metafind, Cyber 411, Inference Find, Super Seek, Dogpile

باهوشترين ابر جستجوي دنياي وب  ixquick مي باشد كه بسيار منطقي ومتفكر است و جوابهاي بازگشتي را بر حسب مورد جستجو آناليز و رده بندي مي كند. از ويژگيهاي اين ابرجستجوگر به موارد زير مي توان اشاره كرد:(نائيني علي اكبري، 1380، ص299-300)
● جامعیت و صحت نتایج: هنگام جستجو این ابر موتور جسجو به طور همزمان چندین موتور جستجو را مورد کاوش قرار   می دهد
● قدرت پالایش نتایج
● سرعت بالا
● رده بندي جوابها: ixquick برای هر موتور جستجو که آن را به عنوان یکی از ده نتیجه بهتر برای جستجو انتخاب می شود یک علامت ستاره و اگر 5 موتور جستجو بر روی یک نتیجه به توافق برسند علامت 5 ستاره را نشان می دهد.
● دارای جستجو به 18 زبان زنده دنیا می باشد.
● كار با آن آسان است
● از سیزده موتور جستجو و دايركتوري برتر دنياي وب بهره مي گيرد. هر چه نمایه سازی این موتورها دقیق تر و جامعتر باشد، بازیابی و پالایش اطلاعات توسط ابرموتور نیز از جامعیت و دقت بیشتری برخوردار است. اين موتورهاي جستجو و دايركتوري ها عبارتند از:
1. موتور جستجو Altavista http://www.altavista.com
2. موتور جستجو AllTheWeb http://www.alltheweb.com
3. موتور جستجو Ask Jeeves http://www.ask.com
4. موتور جستجو Teoma http://www.teoma.com
5. موتور جستجو Entire Web http://www.entireweb.com
6. پروژه  Open Directory http://dmoz.org
7. موتور جستجو Go http://www.gojester.com
8. موتور جستجو LookSmart   http://www.looksmart.com/r?country=uk
9. موتور جستجو Netscape http://www.Netscape.com  
10. موتور جستجو Gigablast  http://www.Gigablast.com
11.موتور جستجو Overture   http://www.content.overture.com/d
12. موتور جستجوWiseNut  http://www.wisenut.com
13. دایرکتوری  Yahoo http://www.yahoo.com



شكل 4- باهوشترين ابر جستجوي دنياي وب ixquick


 
نمایه سازی وب و ابر داده ها
ابر داده در معنای وسیعش "داده ای درباره داده" می باشد: اطلاعاتی که معنای اطلاعات دیگر را انتقال می دهد.اما این اصطلاح معمولا برای داده های ساخته شده در باره منابعی به کار برده می شود که می تواند نوعی از عملیات را پشتیبانی کند. این داده، ساخته شده که در حد یک ماشین قابل فهم شود. اصطلاح ابر داده می تواند برای هر داده توصیفی به کار برده شود و در جامعه کتابداری و اطلاع رسانی می تواند برای توصیف فهرستهای کتابشناختی یا پایگاههای اطلاعاتی استفاده شود. از رکورد فهرست یک کتابخانه می توانیم به عنوان یک ابر داده نام ببریم. به طور مشابه رکودهایی که در نتیجه خدمات نمایه سازی و چکیده نویسی یک پایگاه داده حاصل میشود ابر داده هستند. به طور فزاینده اصطلاح ابرداده در جهان اطلاعات، برای تعیین کردن رکودهایی که به منابع دیجیتالی قابل استفاده در شبکه ارجاع می دهند استفاده می شود.
 ویژگی ها و کاربردهای ابرداده به شرح زیر می باشد:( محمدي، 1383)
1-تسهيل جستجو و بازيابي منابع اطلاعاتي شبكه اينترنت
2-نظم بخشيدن به منابع اطلاعاتي موجود در اينترنت
3-توصيف پايگاههاي اطلاعاتي، تصاوير ديجيتالي،فايلهاي صوتي و ساير منابع غير متني شبكه
4-تحليل محتوا و نمايه‌سازي و سازماندهي انواع منابع اطلاعاتي شبكه
5-تطبيق، اشتراك و يكپارچه‌سازي منابع اطلاعاتي ناهمگن شبكه اينترنت
6-فراهم‌آوردن زمينه استفاده مجدد از انواع اطلاعات توزيع شده در محيط شبكه از طريق مستند سازي محتواي اطلاعات.
7-ايجاد امكان دسترسي كاربران شبكه به اطلاعات دقيق و مرتبط
8-مديريت بر‌حجم گسترده‌اي از اطلاعات شبكه اينترنت
 ابرداده نه تنها به جستجو و بازیابی موثر منابع اطلاعاتی ناهمگن می پردازد, بلکه اطلاعاتی را که دسترسی بدان ها محدود است برای شیوه و نوع استفاده  کاربران مدیریت می کند.( مختاری نبی، 1382)
ابر داده ها، نمایه سازی طیف وسیعی از انواع اطلاعات را بدون نیاز به عرض باند شبکه فراهم می سازد. ازجمله این  ابرداده ها می توان به قالب ابرداده ای دوبلین کور اشاره کرد.اصطلاح 'Dublin Core' مختصر شده عبارت انگلیسی  " Dublin Metadata Core Element Set" می باشد. دوبلین کور یک فهرست هسته از اصول ابر داده است که در مارس 1997به توافق کارگاه ابر داده OCLC/NCSA رسیده است. این کارگاه توسط OCLC و مرکز ملی کاربرد ابرکامپیوترها (NCSA) [11]به منظور توسعه و پیشرفت یک رکورد ابر داده که اطلاعات الکترونیکی شبکه شده را توصیف می کند، تشکیل شده است. این کارگاه پیرو جلسات و بحث های انجمن کتابداران آمریکا می باشد.استوارت ویبل[12] هدف این کارگاه را چنین بیان  می کند: (( Heery, 1996, pp. 345-373.
 
1. پروراندن یک درک مشترک از نیازها، تواناییها، کمبودها و اندیشیدن راه حلهای آنها
2. به توافق رسیدن بر روی مجموعه ای هسته از عناصر ابر داده که منابه الکترونیکی تحت شبکه را توصیف می کند.
 
طبق ویرایش منتشر شده در تاریخ 15-05-2005عناصردوبلین کور به شرح زیر می باشند:
1.عنوان[13] 2.پدیدآور[14] 3.موضوع[15] 4. توصیف[16] 5.ناشر[17] 6.همکار[18] 7.تاریخ[19]  8.نوع منبع[20] 9.قالب[21] 10.شناساگر[22] 11.منبع[23]: همه یا بخشی از منبع حاضر ممکن است ازیک منبع ردیف اول گرفته شده باشد. 12.زبان [24] 13.ارتباط[25]: منظور یک ارجاع به یک منبع رابط می باشد 14.دامنه[26] 15.حقوق منبع[27]

 


 شكل 5- عناصر پانزدگانه  دوبلين كور

 
این پانزده عنصر انتخابی، تکرار پذیر و قابل تعمیم هستند. همچنین آنها می توانند از طرق متعددی مشروط شوند مثلا محتوای فیلد موضوع می تواند داده هایی از یک طرح مانند سرعنوانهای موضوعی کتابخانه کنگره را در بر بگیرد. (http://dublincore.org)
پیاده سازی کنونی دوبلین کور در وب اغلب بر اساس ابر داده ای تحت HTML و meta tagها می باشد. بهر حال با حرکت وب به سمت XML شاید در آینده، دوبلین کور در وب ازRDF  استفاده کند.RDF مخفف عبارت Resource Description Framework می باشد.RDF یک زبان عمومی برای بیان یک ابرداده وب، یا اطلاعاتی درباره اطلاعات بر روی سایت می باشد. از طرفی واضح است که ابر داده ها علاوه بر یافتن منبع، کاربردهای بیشتری نیز دارند. برای مثال ابر داده میتواند برای کمک در اداره کردن بازیابی منابع بر اساس نیازهای تکنولوژیکی کاربران استفاده شود.هم اکنون ابر داده در فیلتر سازی اطلاعات به کاربران از طریق طبقه بندی حجم خدمات نقش دارد.ابرداده همچنین می تواند دسترسی به منابع را مدیریت کند. نقش بالقوه ابر داده در تعیین اعتبار و فرآهم کردن راه حل مشکلات مختلف حفاظت اطلاعات می باشد. اما تاکید بر این نکته که چطور ابر داده به خوبی در یک محیط دیجیتالی عمل می کند به خلق و قوت کیفیت ابر داده بستگی دارد.
شکل زیر مدل ابرداده دوبلین کور را نشان می دهد. هر عنصر زیر جزهایی دارد.

 


 شكل 6- Magazine, June 1997

 
به طور کلی روند بازیابی کاملا به نحوه نمایه سازی اطلاعات وابسته است. هرچه نمایه دقیقتر و منظمتر باشد بازیابی اطلاعات سریعتر و آسانتر است. از طرفي نمايه سازي بايد كاربر مدار باشد.بنابراين در سيستمهاي نمايه سازي توجه به نياز كاربران سيستم، زبان، دانش آنها و محيط كاربرد اطلاعات (كه تاثير عمده اي به زبان كاربران دارد) بسيار مهم است. (رزم گير،1384، ص 221)
 
بازنمود نمایه در وب
نهایتا بحث نمایش نمایه اطلاعات الکترونیکی مطرح می شود. نمایه وب به سه صورت نمایش داده می شود:
1. نمایش تیتر حرف
2. جعبه فورم[28]
3. نمایش سنتی
 
نمایش تیتر حرف
دراین روش یک یا دو ردیف حروف الفبای فارسی یا انگلیسی در صفحه وب نمایش داده می شود.هر حرف یک ابر پیوند  می باشد که با کلیک بر روی آن به فهرستی که مدخلهای آن با همان حرف آغاز شده اند دسترسی پیدا میکنیم هریک از این مدخلها خود یک ابر پیوند هستند و ما را به منبع اصلی اطلاعات متصل می کند.مثال زیر نمونه ای از این نوع نمایش می باشد:


 


گاهی این نوع از نمایش توسعه بیشتری پیدا کرده است. بدین صورت که از طریق کلیک بر روی یک ابر پیوند حرف به         ابرپیوندهای دوحرفی از همان حرف می رسیم که با کلیک بر روی ابر پیوند مورد نظر به لیستی از مدخلها می رسیم و می توانیم موضوع موردنظر را انتخاب و به متن اصلی برسیم مثالی از این مورد در سایت دایره المعارف بریتانیکا مشهود می باشد

 
 


نمایش جعبه فورم
جعبه فورم كل مدخلهاي نمايه را در بر مي گيرد. واحد اصلي نمايه مدخل مي باشد.از آنجا كه تمام مدلهاي نمايه در يك ستون از صفحه نمايش كامپيوتر قرار نمي گيرد، براي رسيدن به مدخل مورد نظر بايد مدخلها را طومار نمايي كرد. با لغزاندن و كشاندن ماوس بر مربع هاي كوچك حاشيه فورم، مدخلهاي نمايه را بالا و پايين برد تا بالاخره، مدخل مورد نظر به گستره ديد فورم برسد.در اين صورت با كليك كردن بر روي مدخل مورد نظر، صفحه متناظر متن بر كنار مستطيل فورم نمايان مي گردد. جعبه فرم ممكن است از يك فهرست تك سطحي ، يا يك فهرست سلسله مراتبي چند سطحي تشكيل شده باشد. منظور از فهرست چند سطحي كه معمولا در كنار متن نمايش داده مي شود مدخلهايي است كه با كليك بر روي آنها زير مدخل سطح بعدي نمايان مي شود و مانند يك ساختار درختي عمل مي كند.
 
نمايش سنتي
اين نوع نمايش مانند نمايه كتاب است. در اين نوع نمايش مي توان از ابر پيوندها استفاده كرد. در شيوه سنتي در محيط الكترونيكي، نمايه، ‌‍«دقيقا» همانند كتاب، به صورت دو ستونه و صفحه به صفحه و با سر صفحه و غيره نمايش داده مي شود: خواه با ابر پيوند خواه بدون آن. در اين شيوه، نمايه، عينا مانند نمايه كتاب، در انتهاي صفحه هاي كتاب قرار داده مي شود. اما در مواردي، نمايه الكترونيكي شبيه نمايه سنتي است، ولي جلوي هر مدخل آن، عدد 1 آمده است. يعني ظاهرا كاب يا متن الكترونيكي شامل يك صفحه است! در اين حالت، كاربر بايد ماوس را بر روي عدد «1» قرار دهد و كليك كند، تا متن متناظر آورده شود. (محمدي فر،1381،ص 357)
 
نتيجه
همه موتورهاي جستجو از يك نوع روش نمايه سازي استفاده نمي كنند و عدم وجود يك نمايه جهاني با يك زبان و نرم افزار واحد باعث شده است نتايج حاصل از جستجو در يك موتور جستجو با نتايج حاصل از جستجو در موتور جستجوي ديگر متفاوت مي باشد لذا هر كاربر اطلاعاتي بايد برايي رسيدن به نتيجه مطلوب جستجو بيش از يك موتور جستجو را به كار گيرد. شايد در آينده اي نه چندان دور شاهد ظهور چنين نمايه اي باشيم.
 

پی نوشتها

  1. index
  2. Web indexing
  3. Search engine
  4. Metasearch engine
  5. Matadata
  6. Dublin Core
  7. Accuracy
  8. Onliness
  9. Updating
  10. Relevancy
  11. National Centre for Supercomputer Applications
  12. Stuart Weibel
  13. Title
  14. Creator
  15. Subject
  16. Description
  17. Publisher
  18. Contributor
  19. Date
  20. Type
  21. Format
  22. Identifier
  23. Source
  24. Language
  25. Relation
  26. Coverage
  27. Rights
  28. Form Box

 

منابع
1. داورپناه، محمدرضا،1381، "جستجوي اطلاعات علمي و پژوهشي در منابع چاپي و الكترونيكي؛ شامل حوزه هاي علوم و فني مهندسي…". تهران: دبيزش.
2. ديگان، ماريلين؛ تانر، سيمون، 1382."آينده ديجيتالي كتابخانه ها: راهبردهايي براي عصر اطلاعات"، ترجمه عباس گيلوري، تهران: دبيزش، چاپار.
3. رزم گير، مريم؛ سيف، زهرا،1384،"توسعه خدمات كاربرمدار: چشم انداز كيفي خدمات كتابخانه ها"، مجموعه مقالات هشتمين همايش كتابداران سازمان مديريت و برنامه ريزي كشور، اصفهان 1-3 دي 1383.
4. سلطانی، پوری؛ راستین، فروردین، 1382، "دانشنامه کتابداری و اطلاع رسانی، فارسی – انگلیسی و انگلیسی – فارسی" . تهران: فرهنگ معاصر.
5. كميجاني، احمد، " ساختار نمايه‌سازي در موتورهاي كاوش وب"،فصلنامه اطلاع رساني. دوره 17، شماره 3و4
6. لانكاستر، اف ويلفريد، 1379، " نظامهاي بازيابي اطلاعات، آزمون و ارزيابي"، ترجمه جعفر مهرداد، شيراز: نويد، 1379.
7. محمدي، سيد حسين، 1383، " ابر‌داده: مفاهيم و كار‌برد‌ها". http://www.irandoc.ac.ir/data/EJ/vol2/metadata.htm
8. مختاری نبی، ابراهیم،1382،" سازماندهی منابع اینترنتی: چالش ها و ضرورت ها". http://www.irandoc.ac.ir/Data/EJ/vol1/organaizing.htm
9. منتظر،غلامعلی،1381، "موتورهای کاوش اینترنت: درآمدی بر بازیابی بهینه اطلاعات". تهران:کویر.
10. موران، جیمز؛ هال، ویکتوریا؛ ویلر، دانا، (1383)."آموزش ICDL  به زبان ساده مهارت هفتم: اطلاعات و ارتباطات"، ترجمه علی اکبر متواضع، تهران: موسسه فرهنگی هنری دیباگران.
11. نائيني علي اكبري، اردوان،1380، "مرجع كامل قويترين تكنيكهاي جستجو در اينترنت". تهران: ارس يارانه.
12. هيئت مولفان و ويراستاران انتشارات ميكروسافت،1382،"فرهنگ تشريحي كامپيوتر ميكروسافت 2004"، ترجمه رضا حسنوي، داريوش فرسائي. تهران: دانشيار، پيك علوم.
 

13. DC-4, March 3 – 5, 1997, National Library of Australia, Canberra: The 4th Dublin Core Metadata Workshop Report
14. INDEXING THE WEB: http://www.asindexing.org/site/webndx.shtml
15. Introduction to indexing materials on the Web: http://www.cu.edu/~irm/stds/wwwmanual/mgmnt/indexing.html
18. Metadata and electronic information: Michael Day: 02-Mar-1999.http://www.ukoln.ac.uk/metadata/presentations/circe/birmingham.html
16. RDF: http://www.webopedia.com/TERM/R/RDF.html
17."Review of Metadata Formats": Rachel Heery, Program, Vol. 30, No. 4, October 1996, pp.345-373. http://www.ukoln.ac.uk/metadata/review.html
18."Review of Teoma": Greg R. Notess, Last updated Apr. 15, 2004: http://www.searchengineshowdown.com/features/teoma/review.html
19."Search Engine Statistics: Relative Size Showdown": Greg R. Notess, http://www.searchengineshowdown.com/stats/size.shtml
20. What is a web index: http://www.ext.nodak.edu/miv/15min/webindex/sld001.htm
21. What Makes Ixquick Special: http://us.ixquick.com/eng/aboutixquick/
22. http://www.iranseo.com/articles/article.php?ID=388
23. http://dublincore.org/documents/dcq-rdf-xml/
24. http://www.google.com/intl/fa/whyuse.html

 



 آذر مكوندي*  و  سعيد حسيني


* كارشناس كتابداري و اطلاع رساني مديريت آموزش و پژوهش استان چهارمحال و بختياري

 عضو كميسيون پژوهشي- آموزشي مجمع متخصصين ايران
E-mail:

 

فوق ليسانس آمار

كارشناس كميته امداد امام (ره)

 

متن PDF

      

 


منبع: مجله الکترونيکي نما

3,308 total views, 1 views today

Share

3 فکر می‌کنند “نمایه سازی موتورهای وب و اهمیت آن در بازیابی اطلاعات جهان مجازی”

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *