تبیان، دستیار زندگی
: امروزه بر روی اینترنت و مهمترین سرویس آن ( وب )، صدها میلیون صفحه حاوی اطلاعات وجود دارد. كاربران اینترنت با آگاهی از آدرس یك سایت ، قادر به اتصال به سایت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سایت خواهند بود....
بازدید :
زمان تقریبی مطالعه :

موتور های جستجو:

امروزه بر روی اینترنت و مهمترین سرویس آن ( وب )، صدها میلیون صفحه حاوی اطلاعات وجود دارد. كاربران اینترنت با آگاهی از آدرس یك سایت ، قادر به اتصال به سایت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سایت خواهند بود. ما با دریائی از اطلاعات مواجه هستیم ، در صورتیكه قصد یافتن اطلاعاتی خاص را داشته باشیم ، از چه امكاناتی در این زمینه می توان استفاده كرد. ؟ برای جستجو و یافتن اطلاعات مورد نیاز از مراكز جستجوی اطلاعات در اینترنت استفاده می گردد . به مراكز فوق Search engines نیز می گویند.

مراكز جستجو در اینترنت ، نوع خاصی از سایت های موجود در وب بوده كه با هدف كمك برای یافتن اطلاعات ، ایجاد شده اند. مراكز جستجو در اینترنت بمنظور پاسخگوئی به كاربران متقاضی و جستجوكنندگان اطلاعات از سه روش متفاوت استفاده می نمایند. نحوه عملكرد سه روش با یكدیگر مشابه بوده و تنها تفاوت موجود میدان انتخاب شده برای عملیات جستجو است .

·      اینترنت و یا بخشی از آن بر اساس كلمات مهم ، جستجو می گردد.

·      از كلمات پیدا شده یك ایندكس بهمراه محل مربوط به هر یك ، ایجاد می نمایند.

·      به كاربران امكان جستجو برای كلمات خاص و یا تركیبی از آنها كه در فایل ایندكس موجود می باشند ، داده می شود.

مراكز جستجوی اولیه در اینترنت ، صرفا" اطلاعات مربوط به چندین هزار صفحه وب را ایندكس و روزانه دو تا سه هزار كاربر متقاضی به آنها مراجعه می كردند. مراكز جستجوی فعلی در اینترنت اطلاعات مربوط به صدها میلیون صفحه را ایندكس نموده و روزانه به بیش از دهها میلیون متقاضی پاسخ می دهند.

وب

اغلب مردم زمانیكه از مراكز جستجو در اینترنت سخن می گویند ، منظور آنها مراكز جستجوی وب است . قبل از مطرح شدن وب ( مشهورترین بخش اینترنت ) ، از مراكز جستجوی اطلاعات برای كمك به كاربران برای یافتن اطلاعات استفاده می گردید.  برنامه هائی نظیر : " gopher"  و "Archie" از فایل های ذخیره شده بر روی سرویس دهنده های متصل به اینترنت ، یك ایندكس ایجاد می كردند. بدین ترتیب  جستجو و دسترسی به اطلاعات و مستندات مورد نظر در اسرع وقت انجام می گردید. در اواخر سال 1980 اكثر كاربران مستلزم دارابودن دانش كافی در رابطه با استفاده ازgopher,Archie وVeronica بودند. امروزه اكثر كاربران اینترنت دامنه جستجوی خود را محدود به وب نموده اند.

قبل از اینكه یك مركز جستجو قادر به ارائه آدرس و محل فایل مورد نظر باشد ، می بایست فایل مورد نظر پیدا شود. بمنظور یافتن اطلاعات مربوط به صدها میلیون صفحه وب موجود ،  مراكز جستجو می بایست از یك نرم افزار خاص با نامSpider ( عنكبوت ) برای ایجاد لیست های شامل كلمات  موجود در هر یك از صفحات وب ، استفاده نمایند. فرآیند ایجاد لیست های مربوطه توسط  Spider ، اصطلاحا"web crawling نامیده می شود. برای ایجاد و نگهداری یك لیست مفید از كلمات ،Spider های مراكز جستجو می بایست تعداد زیادی از صفحات وب را بررسی و مشاهده نمایند. نحوه حركتSpider در وب به چه صورت است ؟ نقاط شروع ، لیستی از سرویس دهندگان با ترافیك و اطلاعات بالا و صفحات وب متداول است .Spider از یك سایت رایج عملیات خود را آغاز و پس از ایندكس نمودن كلمات موجود در صفحات وب  ، هر یك از لینك های موجود در صفحات را برای ادامه حركت خود انتخاب خواهد كرد. بدین ترتیب سیستم مبتنی برSpider بسرعت حركت خود در طول وب را آغاز خواهد كرد.

Google یكی از مراكز جستجوی دانشگاهی و معتبر است . در سیستم فوق از چندین Spider  ( معمولا" سهSpider در هر لحظه ) برای ایجاد مقادیر اولیه برای سیستم ، استفاده  می گردد .  هر Spider قادر به نگهداری ارتباط خود با بیش از 300 صفحه وب در یك لحظه است . با استفاده از چهارspider ، سیستم فوق قادر به جستجوی 100 صفحه در ثانیه و تولید 600 كیلوبایت اطلاعات در هر ثانیه است .  اطلاعات مورد نیاز هر یك از spider ها می بایست بسرعت در اختیار آنان گذاشته شود. سیستم اولیهGoogle ، دارای یك سرویس دهنده اختصاصی بمنظور تغذیه آدرس های URL مورد نیاز برای هر یك ازSpider ها بود. بمنظور افزایش سرعت عملیات ،Google از یك سیستمDNS اختصاصی استفاده می كرد. ( در سایر موارد ازDNS مربوط بهISP استفاده می گردد ) . زمانیكهSpider به یك صفحه وب شامل تگ هایHtml برخورد می نماید ، دو آیتم در رابطه با آن را یاداشت خواهد كرد :

·      كلمات موجود در صفحه

·      محلی كه كلمات پیدا شده اند.

از كلمات موجود در عنوان (title) ، زیرعناوین (Subtitles) ، تگ های متا و سایر مكانهای مهم یاداشت برداشته شده تا در آینده با توجه به خواسته كاربر ، امكان پاسخگوئی مناسب به آنها فراهم گردد. Spider مربوط بهGoogle ، از كلمات موجود در هر یك از صفحات وب ایندكس ایجاد و كلماتی نظیر : "a" ، "an" و "the"  را حذف می نمایند. سایرSpider ها هر یك دارای رویكردهای خاص خود در این زمینه می باشند.

سیاست های استفاده شده در رابطه با نحوه ایندكس نمودن اطلاعات صفحات وب ، مستقیما" بر سرعت عملكردspider ها تاثیر گذاشته و به كاربران امكان جستجوی قدرتمندتر و كارآ را خواهد داد. مثلا" برخی ازSpider ها ، علاوه بر نگهداری اطلاعات مربوط به عناوین و لینك ها ،  یكصد كلمه با فركانس تكرار بیشتر در صفحه وب و كلمات موجود در بیست خط اولیه را نیز نگهداری خواهند كرد. مركز جستجویLycos از رویكرد فوق استفاده می نماید.

سیستم های دیگر نظیر "Altavista ، از روش خاص خود در این زمینه استفاده می نمایند.  در سیستم فوق برای هر یك از كلمات موجود در صفحه شامل "a"  ، "an" و "the"  و سایر كلمات مشابه نیز ایندكس ایجاد می گردد.

تگ های متا

با استفاده از تگ های متا ، ایجاد كنندگان صفحات وب می توانند كلمات كلیدی موجود در صفحه و نحوه ایندكس نمودن آن را مشخص نمایند. روش فوق در مواردیكه یك كلمه دارای بیش از یك معنی می باشد بسیار مفید و كارساز خواهد بود. بدین ترتیب تگ های فوق به مراكز جستجو راهنمائی لازم در خصوص انتخاب معنی مربوط به كلمات مورد نظر را خواهند داد. در این راستا ممكن است برخی از راهنمائی های انجام شده نیز اغفال كننده بوده و نتایج مثبتی را برای مراكز جستجو بدنبال نداشته باشد. بمنظور پیشگیری از راهنمائی های اغفال كننده توسط تگ های متا ، برنامه هایSpider عملیات بازبینی محتویات یك صفحه وب را بمنظور تطبیق با اطلاعات ارائه شده توسط تگ ها ی متا ،  انجام می دهند. اطلاعات نادرست  ارائه شده  بوسیله  تگ های متا ، توسطSpider ها نادیده گرفته می شود.

تمام موارد فوق مفروض به حالتی است كه ایجاد كننده صفحه وب قصد معرفی صفحه ایجاد شده  خود را به مراكز جستجو  دارد. در برخی موارد ممكن است تمایلی به انجام این كار وجود نداشته باشد.

ایجاد ایندكس

پس از اینكه عملیاتSpider ها در رابطه با یافتن اطلاعات به اتمام رسید ، ( عملیات فوق در عمل با توجه به ماهیت وب و استقرار صفحات وب جدید هرگز به پایان نخواهد رسید ، بنابراین همواره عملیات جستجو و یافتن اطلاعات توسطSpider ها انجام می گیرد) مراكز جستجو می بایست اطلاعات مورد نظر را بگونه ای ذخیره نمایند كه قابل استفاده باشند. دو روش عمده در این راستا وجود دارد:

·      اطلاعات بهمراه داده ذخیره گردند.

·      با استفاده از روشی اطلاعات ایندكس گردند.

در ساده ترین حالت ، یك مركز جستجو می تواند صرفا" كلمه و آدرسURL آن را ذخیره نماید. روش فوق در بازیابی اطلاعات و جستجو توسط كاربران ایجاد محدودیت خواهد كرد. با استفاده از روش فوق نمی توان جایگاه و وزن یك كلمه در یك صفحه وب را مشخص نمود. مثلا" نمی توان تشخیص داد كه كلمه مورد نظر چند مرتبه در صفحه تكرار شده و یا لینك های موجود در صفحه نیز شامل كلمه مورد نظر می باشند یا خیر . بدین ترتیب امكان ارائه یك لیست از صفحات وب كه شامل كلمه مورد نظر بر اساس میزان تكرار می باشند ، وجود نخواهد داشت .

بمنظور ارائه نتایج مفیدتر توسط مراكز جستجو ، اكثر مراكز جستجو صرفا" كلمه و آدرسURL را ذخیره نمی نمایند . در این حالت مواردی نظیر : تعداد تكرار كلمه در صفحه نیز ذخیره خواهد شد. مراكز جستجو همچنین به  هرentry یك وزن را نسبت خواهند داد. وزن نسبت داده شده، نشاندهنده جایگاه كلمه در صفحه است ( ابتدای صفحه ، در لینك ها ، در تگ های متا  و یا در عنوان صفحه ) هر یك از مراكز جستجو برای اختصاص یك وزن مناسب به كلمه مورد نظر از یك فورمول استفاده می نمایند. موضوع فوق یكی از دلایلی است كه جستجو یك كلمه توسط دو مركز جستجو ، نتایج مشابه ای را بدنبال نخواهد داشت .

مراكز جستجو بدلیل استفاده بهینه از فضای ذخیره سازی ، اطلاعات مورد نظر را بصورت رمز شده ذخیره می نمایند. مثلا" در نسخه اولیه سایتGoogle از دو بایت بمنظور ذخیره سازی اطلاعات مربوط به  كلمات در یك صفحه استفاده می كردند. كلمات بصورت حروف بزرگ بهمراه اندازه فونت ، وزن و موقعیت آن ذخیره می گردید. هر یك از فاكتورهای فوق دو ویا سه بیت از دو بایت اشاره شده را به خود اختصاص می دادند. بدین ترتیب اطلاعات گسترده ای بصورت  فشرده ذخیره و سپس عملیات ایجاد ایندكس انجام می گیرد.

ایندكس دارای صرفا"  یك هدف است : امكان یافتن اطلاعات با سرعت بالا . برای ایجاد ایندكس از روش های متعددی استفاده می گردد. یكی از بهترین روش های موجود ، ایجاد یك جدولHash است . در روشhashing ، از یك فورمول برای اختصاص یك عدد به یك كلمه استفاده می گردد. توزیع عددی با توزیع كلمات بصورت الفبائی با یكدیگر متفاوت بوده و همین امر ، موثر بودن جداولhash را بدنبال خواهد داشت .  در زبان انگلیسی حروفی  وجود دارد كه كلمات زیادی با آنان آغاز می گردد. مثلا" بخش  حرف "M" ، در یك دیكشنری بمراتب قطورتر از حرف "X" است . بدین ترتیب جستجو و یافتن كلماتی كه با حرفM شروع می گردند زمان بمراتب بیشتری نسبت به یافتن كلماتی كه با حرف "X" آغاز می گردند ، را طلب می كند. در روشhashing ، با آگاهی  از موارد فوق،  بگونه ای رفتار می گردد كه متوسط زمان  بازیابی هر كلمه كاهش یابد. در روش فوق ایندكس از داده واقعی متمایز می گردد. جدولhash ، شامل شمارهhash بهمراه اشاره گری است كه به داده مورد نظر اشاره می نماید. با ایجاد یك سیستم ایندكس مناسب و ذخیره سازی مطلوب اطلاعات ، امكان ارائه نتایج مفید برای كاربران را فراهم خواهد كرد.

جستجو

كاربران برای جستجوی اطلاعات مورد نیاز ، پس از ورود به سایت مركز جستجو ، یكquery را ایجاد می نمایند.query می تواند ساده و صرفا" شامل یك كلمه و یا پیچیده و استفاده از عملگرهای منطقی باشد. برخی از عملگرهای منطقی عبارتند از :

● AND .  تمام كلماتی كه توسطAND بیكدیگر ملحق شده اند ، می بایست در صفحه موحود باشند. در برخی از مراكز جستجو از عملگر "+"  بعنوان عملگر جایگزینAND نیز استفاده می شود.

●OR  . حداقل یكی از كلماتی كه توسطOR بیكدیگر ملحق شده اند ، می بایست در صفحه موجود باشد .

●NOT . كلمه بعد ازNOT نباید در صفحه موجود باشد. برخی از مراكز جستجو از عملگر "-" نیز استفاده می نمایند.

●Followed by . یكی از كلمات می بایست مستقیما" پس از كلمه دیگر وجود داشته باشد.

آینده مراكز جستجو

جستجوهائی كه توسط عملگرهای منطقی تعریف می گردند از نوع جستجوهایliteral می باشند. مراكز جستجو بمنظور ارائه نتایج مورد نظر كاربر ، دقیقا"  كلمه و یا كلمات مشخص شده توسط كاربر در بانك اطلاعاتی جستجو می نمایند. روش فوق در مواردیكه یك كلمه دارای بیش از یك معنی باشد ، نتایج مثبتی را بدنبال نخواهد داشت . برای اخذ نتایج دلخواه ، كاربران اینترنت می توانند با استفاده از عملگرهای منطقی محدودیت هائی را ایجاد نمایند ، روش مناسب این است كه محدودیت فوق از طریق مركز جستجو اعمال گردد.

یكی از مواردیكه اخیرا" توسط محققین متفاوتی در مراكز جستجو دنبال می گردد ، جستجو بر اساس مفهوم است .در روش فوق با استفاده از آنالیزهای آماری بر روی صفحات شامل كلمات سعی در ارائه نتایج مطلوبتری وجود دارد. در برخی موارد دیگر استفاده از زبانهای طبیعی برای جستجو دنبال می گردد. در روش فوق برای طرح سوال خود از یك مركز جستجو از روشی كه توسط انسان برای طرح سوالات مربوطه استفاده می گیرد، استفاده خواهد شد. در این راستا ضرورتی به استفاده از عملگرهای منطقی و یاquery های پیچیده نخواهد بود.

www

.Srco.Ir