چگونه موتور جستجو Search Engines در ثانیه ای میان میلیونها صفحه اینترنتی انبوهی از اطلاعات را در اختیارمان می گذارد
چگونه موتور جستجو Search Engines در ثانیه ای میان میلیونها صفحه اینترنتی انبوهی از اطلاعات را در اختیارمان می گذارد
موتورهاى جستجوى اینترنتى، سایت هاى مخصوصى در شبكه هستند و طورى
طراحى شده اند كه به افراد كمك مى كنند تا اطلاعات مورد نیازشان را كه در سایت هاى دیگر ذخیره شده است بیابند.
حتماً شما هم بارها، زمانى كه به یك مقاله علمى، سیاسى و... نیاز داشته اید یا حتى براى یافتن معنى اصطلاحى، پشت كامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان كوتاهى آن را پیدا كرده اید. اما آیا تابه حال فكر كرده اید چگونه در عرض چند ثانیه انبوهى از اطلاعات در اختیار شما قرار مى گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزى از موضوعات ارائه دهند. زمانى كه شما مى خواهید در مورد یك موضوع مخصوص اطلاعات كسب كنید، چگونه مى دانید كه چه صفحاتى را باید بخوانید؟ احتمالاً مانند اكثر مردم، شما از یك موتور جستجوى اینترنت بازدید مى كنید مقاله ای که پیش رو است به قلم شیوا یکی از همکاران و وبلاگنویسان است که با زبانی ساده و به دور از مسایل فنی به ما خواهد آموخت چگونه در عرض چند ثانیه موتور جستجو در میان میلیونها صفحه انبوهی از اطلاعات را در اختیار کاربرمی گذارد
»» چگونه گوگل در كمتر از یك ثانیه میلیون ها صفحه را در نتیجه جستجوی خود ارایه می کندچگونه موتور جستجو در ثانیه ای میان میلیونها صفحه اینترنتی انبوهی از اطلاعات را در اختیارمان می گذارد
در خصوص چگونگی انجام این مهم یعنی پیدا کردن یک کلمه یا ترکیبی از کلمات توسط یک موتور جستجو مقالات متعددی در وبلاگ فن آوری اطلاعات یزد درج نموده ایم . مقاله ای که پیش رو است به قلم شیوا یکی از همکاران و وبلاگنویسان است که با زبانی ساده و به دور از مسایل فنی به ما خواهد آموخت چگونه در عرض چند ثانیه موتور جستجو در میان میلیونها صفحه انبوهی از اطلاعات را در اختیار کاربرمی گذارد
جستجو میان صدها میلیون صفحه
حتماً شما هم بارها، زمانى كه به یك مقاله علمى، سیاسى و... نیاز داشته اید یا حتى براى یافتن معنى اصطلاحى، پشت كامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان كوتاهى آن را پیدا كرده اید. اما آیا تابه حال فكر كرده اید چگونه در عرض چند ثانیه انبوهى از اطلاعات در اختیار شما قرار مى گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزى از موضوعات ارائه دهند. زمانى كه شما مى خواهید در مورد یك موضوع مخصوص اطلاعات كسب كنید، چگونه مى دانید كه چه صفحاتى را باید بخوانید؟ احتمالاً مانند اكثر مردم، شما از یك موتور جستجوى اینترنت بازدید مى كنید. موتورهاى جستجوى اینترنتى، سایت هاى مخصوصى در شبكه هستند و طورى طراحى شده اند كه به افراد كمك مى كنند تا اطلاعات مورد نیازشان را كه در سایت هاى دیگر ذخیره شده است بیابند.
»» چگونه گوگل در كمتر از یك ثانیه میلیون ها صفحه را در نتیجه جستجوی خود ارایه می کند
»» درآمد هنگفت موتور جستجو گوگل از کجاست
»» نگاهی به گوگل غول موتور جستجو و موفقیتهایش
»» آشنایی با تاریخچهی موتورهای جستجو و آنچه از موتور جستو. گوگل کمتر میدانیم
شیوه عملكرد موتورهاى جست وجوى
تفاوت هایى در شیوه عملكرد موتورهاى جست وجوى مختلف وجود دارد، اما همه آنها سه وظیفه اصلى را انجام مى دهند:
در اینترنت، یا بخش هاى برگزیده اى از اینترنت، براساس كلمات مهم جستجو را انجام مى دهند.
یك فهرست از كلماتى كه پیداكرده اند و جایى كه آنها را پیدا كرده اند، تهیه مى كنند.
این امكان را براى كاربران فراهم مى كنند تا كلمات یا مجموعه اى از كلمات مورد نظر خود را كه در فهرست یافت مى شود جست وجو كنند.
موتورهاى جست وجوى اولیه یك فهرست شامل تنها چندصد هزار صفحه و فایل نگهدارى مى كردند و در روز شاید یك یا دو هزار بازدیدكننده داشتند. امروزه یك موتور جست وجوى خوب، صدها میلیون صفحه را فهرست مى كند و در روز پاسخگوى ده ها میلیون جست وجو كننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام مى شود و چگونه موتورهاى جست وجوى اینترنتى، بخش هاى مختلف را به كار مى برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبكه بیابید. جستجو میان صدها میلیون صفحه قبل از اینكه یك موتور جستجوگر بتواند به شما بگوید كه یك فایل در كجا قرار دارد، باید آن فایل پیدا شود.
روبات اسپایدر spiders
یك موتور جست وجوگر براى یافتن اطلاعات از میان صدها میلیون صفحه كه در شبكه وجود دارند، روبات نرم افزارى خاصى به نام spiders را به كار مى گیرد تا لیستى از كلماتى كه در سایت هاى شبكه یافت مى شود را ایجاد كند. فرآیندى كه یك spider لیست خود را ایجاد مى كند، Web crawling نامیده مى شود. براى ایجاد و نگهدارى یك لیست مفید و مناسب از كلمات، یك spider موتور جست وجوگر باید صفحات بسیار زیادى را بررسى كند. چگونه هر spider مسیرش را در شبكه آغاز مى كند ؟ معمولاً نقطه شروع، لیستى از صفحاتى است كه توسط سرورها زیاد استفاده مى شوند و همچنین صفحاتى كه مومى تر و معروف تر هستند.
طرز عملکرد یک اسپایدر spiders
spider از یك سایت عمومى شروع مى كند، كلمات موجود در صفحات آن را لیست مى كند و هر لینكى كه در آن سایت یافت مى شود را دنبال مى كند. به این طریق سیستم جست وجوگر به سرعت شروع به حركت مى كند و در بخش هایى كه بیشتر از همه مورد استفاده قرار مى گیرد حركت مى كند. Google.com به عنوان یك موتور جست وجوگر علمى آغاز به كار كرد. سرجى برین و لورنس پیج بیان كرده اند كه spiderهاى سیستم آنها با چه سرعتى مى توانند كار كنند. آنها سیستم اولیه خود را به گونه اى ساختند كه از چندین spider استفاده كند، معمولاً سه تا در یك زمان. هر spider مى توانست با حدود سیصد صفحه شبكه كه در یك زمان باز بودند اتصال برقرار كند. در بهترین عملكرد خود، با استفاده از چهار spider، این سیستم مى توانست در هر ثانیه به صد صفحه متصل باشد و حدود ??? كیلو بایت داده را در هر ثانیه ایجاد كند. براى سرعت بخشیدن به جست وجو، ایجاد سیستمى براى ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه داراى سرورى بود كه به فراهم كردن URL ها براى spider ها اختصاص یافته بود. به جاى وابسته بودن به یك فراهم كننده سرویس اینترنتى براى DNS كه نام یك سرور را به یك آدرس تبدیل مى كند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانى كه اسپایدر spider یك صفحه HTML را مشاهده مى كرد
زمانى كه spider گوگل یك صفحه HTML را مشاهده مى كرد، به دو نكته توجه مى كرد: كلمات درون صفحه، در كجا كلمات پیدا شده اند. كلماتى كه در عنوان اصلى یا عناوین فرعى و یا سایر موقعیت هایى كه داراى اهمیت نسبى هستند، قرار دارند براى جست وجوى بعدى كاربر مورد توجه خاص قرار مى گرفتند. spider گوگل هر كلمه معنى دارى در صفحه را فهرست مى كرد و از كلمات a an, the صرف نظر مى كرد. سایر spider ها از روش هاى متفاوتى استفاده مى كردند. در كل تمامى این روش ها معمولاً سعى مى كند تا عملكرد spider را سریع تر كند، به كاربران اجازه بدهد تا با كارایى بهتر و بهینه تر جست وجو كنند و یا هر دو آنها. به عنوان مثال، بعضى spider ها كلماتى كه در عنوان ها، عنوان هاى فرعى و لینك ها وجود دارند یا كلماتى كه بارها در صفحه تكرار مى شوند و هر كلمه اى در بیست خط اولیه متن را نگهدارى مى كند. سایت Lycos از این روش استفاده مى كند. سایر سیستم ها، از قبیل AltaVista، هر كلمه در صفحه، شاملa an, the و سایر كلمات كه بى اهمیت هستند را هم لیست مى كنند.
ایجاد فهرست
ایجاد فهرست زمانى كه spider ها وظیفه یافتن اطلاعات از صفحات شبكه را به اتمام رساندند (البته باید در نظر داشته باشیم كه این وظیفه هرگز واقعاً تمام نمى شود، خاصیت تغییر دائمى شبكه به این معنى است كه spiders ها همیشه در حال حركت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شكلى كه مفید باشد، ذخیره كند. دو مولفه كلیدى براى در دسترس قرار دادن اطلاعات جمع آورى شده براى كاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشى كه توسط آن اطلاعات فهرست مى شود. در آسان ترین حالت، موتور جست وجوگر مى تواند تنها كلمه و URL را ذخیره كند. در حقیقت، این روش براى موتورى با كاربرد محدود است، زیرا در این حالت راهى وجود ندارد براى اینكه تعیین كند آیا كلمه در بخش مهم یا بخش بى اهمیتى از صفحه استفاده شده است، آیا كلمه تنها یك بار یا چندین مرتبه تكرار شده است یا صفحه لینك هایى به صفحات دیگرى كه شامل آن كلمه هستند، دارد. به عبارت دیگر راهى براى ایجاد لیستى رتبه بندى شده كه تلاش مى كند تا مفیدترین و بهترین صفحات را در بالاى لیست نتایج جستجو قرار بدهد، وجود ندارد.
حرکت به سوی کارایی بهتر در موتورهای جستجو
براى به دست آوردن نتایج بهتر، بیشتر موتورهاى جست وجو اطلاعات بیشترى علاوه بر كلمه و URL ذخیره مى كنند. موتور ممكن است تعداد دفعاتى كه كلمه در صفحه تكرار شده است را ذخیره كند، یا ممكن است مقدارى را به هر ورودى اختصاص بدهد و زمانى كه كلمات در عناوین، عنوان هاى فرعى و لینك ها ظاهر مى شوند ارزش اختصاص یافته به آنها بیشتر مى شود. هر موتور جست وجوگر تجارى، فرمول متفاوتى براى ارزش گذارى كلمات فهرست خود دارد. این مسئله یكى از دلایلى است كه موجب مى شود جست وجوى یك كلمه در موتورهاى جست وجوگر متفاوت، لیست هاى متفاوتى را ارائه بدهد و صفحاتى با ترتیب هاى متفاوت ارائه شود. داده ها براى صرفه جویى در فضاى ذخیره سازى رمزگذارى مى شوند. مثلاً در صفحه گوگل اطلاعاتى از قبیل اینكه آیا كلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت كلمه و سایر اطلاعاتى كه به رتبه بندى آن كمك مى كند را به صورت بیت و بایت ذخیره مى كند. در نتیجه میزان بسیار زیادى از داده ها مى تواند به شكل بسیار فشرده اى ذخیره شود. بعد از اینكه اطلاعات فشرده شد، براى فهرست شدن آماده است. هدف از ایجاد یك فهرست این است كه باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممكن پیدا كنیم.
ایجاد فهرست وبسایتها در موتور جستجو
به طور كل، تنها چند راه براى ایجاد فهرست وجود دارد، اما یكى از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولى به كار مى رود تا به هر كلمه یك ارزش عددى اختصاص بدهد. پرسش و جست وجوى انجام شده توسط كاربر مى تواند خیلى ساده باشد، حتى یك كلمه. براى پرسش هاى پیچیده تر لازم است تا از عملگرهاى بولین (AND, OR, NOT, NEAR,) و... استفاده كنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملكرد یك موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت هاى مختلف لیستى از كلمات و جایى كه قرار دارند فراهم مى كند، سپس براساس سیستم ارزش گذارى خود فهرستى رتبه بندى شده تهیه مى كند، داده ها را رمزگذارى مى كند و سرانجام اطلاعات را براى دسترسى كاربران ذخیره مى كند.
در جستجوهایى كه از عملگرهاى بولین استفاده مى شود، جستجوهاى لفظى است. موتور دقیقاً همان كلمات یا عبارتى كه وارد شده است را جست وجو مى كند. زمانى كه كلمات ورودى داراى چندین معنى هستند، جست وجوى صحیح آنها مشكل است. در این حالت، اگر براى شما تنها یكى از معانى آن كلمه مهم باشد، احتمالاً شما نمى خواهید سایر صفحات را كه شامل معانى دیگر كلمه است ببینید. شما مى توانید یك جست وجوى لفظى ایجاد كنید كه تا حدودى معنى هاى ناخواسته را حذف كند، اما بهتر این بود كه خود موتور جستجو مى توانست این كار را انجام بدهد. یكى از حوزه هاى تحقیق در موتورهاى جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده كردن از تحلیل هاى آمارى صفحاتى كه شامل كلمات یا عباراتى است كه شما جست وجو مى كنید، براى اینكه صفحات دیگرى را كه ممكن است شما به آن علاقه داشته باشید پیدا كند. بدیهى است كه در یك موتور جست وجوگر مبتنى بر مفهوم، اطلاعات ذخیره شده براى هر صفحه، بیشتر است. هنوز بسیارى از گروه ها تلاش مى كنند تا نتایج و عملكرد این نوع از موتورهاى جست وجو را افزایش دهند. قلمرو دیگرى كه پژوهشگران درباره آن تلاش مى كنند، پرسش ها به زبان طبیعى نامیده مى شود. منظور از این پژوهش این است كه شما بتوانید پرسش تان را به گونه اى تایپ كنید مثل اینكه آن را از شخصى كه كنار شما نشسته است مى پرسید و نیازى نباشد تا از عملگرهاى بولین یا ساختارهاى پیچیده براى پرسش استفاده كنید.
سخن آخر
معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعى، سایت AskJeeves.com است. این سایت تنها با جملات ساده كار مى كند، اما تلاش بسیارى انجام مى شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد. همچنان تلاش هاى بسیارى براى افزایش كیفیت و ارائه خدمات بیشتر موتورهاى جستجوگر انجام مى شود و هر روز شاهد خبرهاى جدیدى در این زمینه هستیم و رقابت بین سایت هاى داراى موتور جستجوگر بیشتر و بیشتر مى شود.
ایران جدید ایرانیو
------ .:شناسنامه مقاله :. -----------------------------------------
برداشت آزاد : مطالب با رنگ n در متن مقاله به صورت توضیح مطلب به متن نویسنده اضافه شده است ؛ وبلاگ در حذف یا اضافه مطالب با رعایت قانون کپی رایت CopyRight آزاد است
منبع : وبلاگ ایرانیو iranew.blogfa.com
نویسنده: محمد – مدیر وبلاگ ایرانیو iranew.blogfa.com
تاریخ انتشار : شنبه 3 تیر 1385
منبع وبلاگ : وبلاگ ایرانیو iranew.blogfa.com
عنوان اصلی مقاله: نگاهى به موتورهاى جستجو در اینترنت
لینک مستقیم مقاله اصلی http://iranew.blogfa.com/post-34.aspx
کلمات کلیدی عمومی وبلاگ : وبلاگ+ فن آوری اطلاعات+ یزد + Yazd + IT+ Weblog
کلمات کلیدی مقاله : موتور جستجو + جستجو + صفحه + اینترنت + وبسایت +شیوه +عملكرد + روبات + اسپایدر + spiders + HTML + ایجاد فهرست
----------------------------------------------------------
تبلیغات

مدیر وبلاگ :