آیا می‌دانید موتورهای جستجو چگونه کار می‌کند؟

آیا می‌دانید موتورهای جستجو چگونه کار می‌کند؟

گوگل (به عنوان یکی از معروفترین موتورهای جستجو) برای بسیاری نقطه‌ی شروع برای پیدا کردن وب سایت‌ها در اینترنت بوده است .

مسلما اینترنت مهمترین اختراع بشر بوده چرا که نیاز افراد برای کسب اطلاعات را تا حد زیادی برطرف می‌سازد. بدون موتورهای جستجو دسترسی به همه سایتها امکان پذیر نخواهد بود و برخی از سایتها همیشه گمنام می‌مانند و ما تنها به سایتهایی دسترسی خواهیم داشت که مستقیما از وجود آنها اطلاع داریم، به وسیله موتورهای جستجو می‌توانیم سایتهای مرتبط با اطلاعاتی که مدنظر ماست را یافت و از آن استفاده کرد .

آیا میدانید موتورهای جستجو چگونه کار می‌کنند ؟

هر موتور جستجو شامل 3 عمکرد اصلی است : اسکن (پیمایش) یا کاوش محتوا ، رده بندی و ذخیره محتوا ، بازیابی محتوا

پیمایش (کاوش یا اسکن)

اسکن (پیمایش) شروع کار موتورهای جستجو است،  در این مرحله اطلاعات اصلی یک وب سایت بدست می‌آید که شامل اسکن کردن و جمع آوری اطلاعات هر صفحه از وب سایت موردنظر است و اطلاعات از عناوین، تصاویر، کلمات کلیدی، سایر صفحات مرتبط و غیره به دست می آید . پیمایشگرها ممکن است جزئیات مختلفی چون طرح بندی صفحات، محل تبلیغ، قرار دادن لینک ها و غیره را جستجو نمایند.

هنگامی که پیمایشگر وب از یه صفحه بازدید می‌کند تمامی لینکهای آن صفحه را در یک لسیت جمع آوری می‌کند.  سپس به بررسی هریک از این لینکها می‌پردازد و موارد مربوط به آن لینک را نیز جمع آوری میکند و در صورتی که صفحه تغییری کند می‌تواند مجدد به آن باز گردد و با آگاهی به تغییرات صفحه اطلاعات خود را به روز رسانی کند.

الگوریتم

این بدان معنی بوده که هر سایتی با نمایه‌ای دارای پیوند همراه است. برخی از سایت‌ها مرتبا بارگیری می‌شوند و برخی دیگر نیز به شکل عمیقی مورد بررسی قرار می‌گیرند. اگر سلسله مراتب سایتی بسیار پیچیده باشد یک پیمایشگر وب (crawler) ممکن است ادامه ندهد.

گوگل

صفحات را می‌توان به صورت no index علامت گذاری کرد ، در این صورت موتورهای جستجو به بررسی آن صفحات نمی‌پردازند ، بخشی از وب سایت‌هایی که در اینترنت مستند نشده‌اند را deep web می‌گویند همچنین برخی سایت‌ها مثل شبکه TOR  نمی‌توانند توسط موتورهای جستجو مورد پیمایش قرار گیرند .

نمایه سازی

نمایه سازی صورت می‌گیرد و بعد از آن داده اسکن می‌شوند و در پایگاه داده‌ای قرار گیرند. مانند زمانی که ما لیستی از کتابها به همراه نام ناشران ، ژانرهای آن ، تعداد صفحات و … را تهیه و ذخیره کرده باشیم. بنابراین در ابتدا نمایه سازی صورت می‌گیرد و زمانی که لیستی تهیه شد و در پایگاه ذخیره شد پیمایش صورت گرفته است.

نمایه سازی زمانی انجام می‌گیرد که داده ها به پردازش می‌رسند و در پایگاه داده قرار می‌گیرند. تصور کنید شما لیستی از تمامی کتاب هایی که متعلق به شما، ناشران، نویسندگان آنها، ژانرهای آنها، تعداد صفحات آنها و غیره است را ایجاد می‌کنید. پیمایش زمانی اتفاق می‌افتد که نمایه سازی آن کتاب انجام گرفته شده باشد. زمانی که شما آنها را به لیست خود اضافه می کنید در حقیقت پیمایش کردید.

با در نظر گرفتن کتابخانه‌ای که دارای لیستی مشخص با اطلاعاتی کافی است می‌توانید قسمتی از دنیای داده‌ها که توسط گوگل مرتب سازی می‌شود را تصور کنید . به این صورت است که گوگل می‌تواند از میان انبوه اطلاعات موجود ، وب سایت مرتبط را برای شما نمایش دهد. در عکس زیر نمایی از مرکز داده(Data Center) شرکت گوگل را مشاهده می‌کنید.

دیتاسنتر

بازیابی و رتبه بندی

بازیابی زمانی صورت می گیرد که موتور جستجو به پردازش داده سایت شما می‌پردازد و صفحات مربوط نیز مطابق با نیاز شما باز می شود. وجه تمایز موتورهای جستجو در روش بازیابی آنهاست، معیارهایی که برای انتخاب صفحات در نظر می‌گیرند . به همین دلیل است که نتایج جستجو در گوگل و بینگ متفاوت است.

برای این عملیات ،موتورهای جستجو الگوریتم‌هایی دارند، الگوریتم‌های رتبه بندی مورد جستجو را از میان میلیاردها صفحه بررسی می‌کنند و ارتباط بین صفحه‌های مختلف را کشف می‌کنند . یکی از مهم ترین اسرار شرکتهای صاحب موتورهای جستجو همین الگوریتم های رتبه بندی است . هرچه الگوریتم ها بهتری باشند ، جستجو راحتتر و بهتر خواهد بود. در این میان سایت‌ها برای اینکه در صفحات اول موتور های جستجو باشند تکنیکهایی را به کار می‌برند ولی موتورهای جستجو اجازه‌ی رشد ناعادلانه ی رتبه ی سایت را نمی‌دهد . و اگر صاحبان سایتها از الگوریتم های جستجو باخبر شوند میتوانند با سیستم بازی کنند و به ضرر جستجوگران خواهد بود .

تگ متا

موتورهای جستجو  بر اساس کلمات کلیدی سایتهای مربوط به موضوع جستجو را پیدا می‌کنند به همین دلیل برای صاحبان سایت ها این امر مهم است و سعی می‌کنند سایت های خود را بر اساس  کلمات کلیدی موضوع فعالیت خود بهینه کنند که گاها در این بین تخلفاتی هم صورت می‌پذیرد.

بر این اساس اهمیت لینکها مشخص می‌شود . سایتهایی که دارای لینکهای ورودی (internal link) هستند اهمیت بیشتری برای موتورهای جستجو دارند . مثلا صفحات مرتبط سایت‌ها با لینکهای داخلی به هم ارجاع داده شوند و این مسئله برای موتورهای جستجو بسیار اهمیت دارد و باعث محبوبیت سایت می‌شود . موتورهای جستجو معیارهایی برای بهینه بودن سایتها در نظر می‌گیرند و سایتها را براساس معیارها توسط الگوریتم های خود رتبه بندی میکنند و هدف الگوریتم‌های جستجو ارائه لینک‌های دارای محتوای با کیفیت و مرتبط با خواست جستجوگر است و این مسئله بسیار اهمیت دارد.

البته این مقاله خلاصه ای از ساختار فعالیت موتورهای جستجو بوده و در مقالات آتی به  ابعاد دیگری از ساختار موتورهای جستجو و همچنین بهینه سازی و آشنایی با الگوریتمهای مختلف پرداخته خواهد شد .

امیر صالح
بدون نظر

ارسال نظر

نظر
نام
ایمیل
وب سایت