كيف يعمل محرك البحث ويجعل حياتك أسهل؟

نشرت: 2015-11-06

محرك البحث العامل وحدات البايت القصيرة: محرك البحث عبارة عن برنامج يسمح بعرض نتائج صفحة الويب ذات الصلة بناءً على إدخال استعلام البحث عن طريق استخدام زحف الويب وفهرسة الويب وبعض الصيغ الدسمة والخوارزميات الذكية من أجل جمع البيانات المناسبة.

تم إجراء بضعة آلاف من عمليات البحث في الوقت الذي تم فيه تحميل صفحة الويب هذه على جهاز الكمبيوتر الخاص بك. لكن ، هل حفز هذا خلاياك العصبية ، كيف يعمل محرك البحث؟

كيف تقدم لك Google أفضل النتائج في غمضة عين؟ في الواقع ، لا يهم حتى وجود Google و Bing. كان السيناريو مختلفًا تمامًا إذا لم يكن هناك Google أو Bing أو Yahoo. دعونا نتعمق في عالم محركات البحث ونرى كيف يعمل محرك البحث.

اختلاس النظر في التاريخ

بدأت القصة الخيالية لمحرك البحث في التسعينيات عندما اعتاد تيم بيرنرز-لي على إدراج كل خادم ويب جديد دخل على الإنترنت ، إلى القائمة التي يحتفظ بها خادم الويب CERN. حتى سبتمبر 93 ، لم تكن هناك محركات بحث موجودة على الإنترنت ، ولكن فقط عدد قليل من الأدوات التي كانت قادرة على الحفاظ على قاعدة بيانات لأسماء الملفات. كان أرشي وفيرونيكا وجوجيد أول من دخلوا في هذه الفئة.

تم اعتماد Oscar Nierstrasz من جامعة جنيف لأول محرك بحث ظهر إلى الوجود ، وهو W3Catalog. قام ببعض البرامج النصية الجادة لـ Perl وأخرج أخيرًا مع أول محرك بحث في العالم في 3 سبتمبر 1993. علاوة على ذلك ، شهد عام 1993 ظهور العديد من محركات البحث الأخرى. JumpStation بواسطة Jonathon Fletcher و AliWeb و WWW Worm وما إلى ذلك Yahoo! تم إطلاقه في عام 1995 كدليل ويب ، ولكنه بدأ في استخدام محرك بحث Inktomi من عام 2000 ثم انتقل إلى Microsoft Bing في عام 2009.

الآن ، الحديث عن الاسم الذي يعد المرادف الرئيسي لمصطلح محرك البحث ، بحث Google ، كان مشروعًا بحثيًا لاثنين من خريجي ستانفورد ، لاري بيدج وسيرجي برين ، وقد ظهرت آثاره الأولية في مارس 1995. وقد تم إلهام عمل Google في البداية من خلال طريقة الربط الخلفي للصفحة التي أجريت حسابات بناءً على عدد الروابط الخلفية التي نشأت من صفحة ويب ، وذلك لقياس أهمية تلك الصفحة في شبكة الويب العالمية. قال بيج: "أفضل نصيحة تلقيتها على الإطلاق" ، بينما يتذكر كيف دعم مشرفه تيري فينوغراد فكرته. ومنذ ذلك الحين ، لم تنظر Google إلى الوراء أبدًا.

كل شيء يبدأ بالزحف

يبدأ محرك بحث الأطفال في مرحلته الأولى في استكشاف شبكة الويب العالمية ، باستخدام يديه الصغيرتين وركبتيه ، يستكشف كل رابط آخر يجده على صفحة ويب ويخزنها في قاعدة البيانات الخاصة به.

الآن ، دعنا نركز على بعض الأفكار التقنية الموجودة خلف الكواليس ، حيث يشتمل محرك البحث على برنامج Web Crawler وهو في الأساس روبوت إنترنت مخصص للمهمة لفتح جميع الارتباطات التشعبية الموجودة على صفحة ويب وإنشاء قاعدة بيانات للنصوص والبيانات الوصفية من جميع الروابط . يبدأ بمجموعة أولية من الروابط للزيارة ، تسمى البذور. بمجرد الشروع في زيارة هذه الروابط ، يضيف روابط جديدة في القائمة الحالية لعناوين URL المراد زيارتها ، والمعروفة باسم Crawl Frontier.

أثناء عبور الزاحف عبر الروابط ، يقوم بتنزيل المعلومات من صفحات الويب هذه ليتم عرضها لاحقًا في شكل لقطات ، حيث يتطلب تنزيل صفحة الويب بأكملها قدرًا كبيرًا من البيانات ، ويأتي بسعر مناسب ، على الأقل في دول مثل الهند. ويمكنني أن أراهن ، إذا تم تأسيس Google في الهند ، فسيتم استخدام كل أموالهم لدفع فواتير الإنترنت. نأمل ألا يكون هذا موضوعًا للقلق حتى الآن.

يستكشف زاحف الويب صفحات الويب بناءً على بعض السياسات:

سياسة التحديد: يقرر الزاحف الصفحات التي يجب تنزيلها وأيها لا يجب تنزيله. تركز سياسة الاختيار على تنزيل المحتوى الأكثر صلة بصفحة الويب بدلاً من بعض البيانات غير المهمة.

سياسة إعادة الزيارة: يقوم برنامج الزاحف بجدولة الوقت الذي يجب فيه إعادة فتح صفحات الويب وتعديل التغييرات في قاعدة البيانات الخاصة به ، وذلك بفضل الطبيعة الديناميكية للإنترنت التي تجعل من الصعب جدًا على برامج الزحف البقاء محدثة بأحدث إصدارات من صفحات الويب.

سياسة التوازي: تستخدم برامج الزحف عمليات متعددة في وقت واحد لاستكشاف الروابط المعروفة باسم الزحف الموزع ، ولكن في بعض الأحيان هناك احتمالية أن تقوم العمليات المختلفة بتنزيل صفحة الويب نفسها ، لذلك يحافظ الزاحف على التنسيق بين جميع العمليات للتخلص من أي فرص الازدواجية.

سياسة التأدب: عندما يجتاز الزاحف موقعًا ما ، فإنه يقوم في نفس الوقت بتنزيل صفحات الويب منه ، وبالتالي زيادة الحمل على خادم الويب الذي يستضيف موقع الويب. ومن ثم ، يتم تنفيذ مصطلح "تأجيل الزحف" حيث يتعين على الزاحف الانتظار لبضع ثوان بعد تنزيل بعض البيانات من خادم ويب ، ويكون محكومًا بسياسة التأدب.

اقرأ أيضًا: كيفية إنشاء زاحف ويب أساسي في Python

بنية عالية المستوى لبرنامج تتبع ارتباطات ويب قياسي:

الزاحف

يوضح الرسم التوضيحي أعلاه كيفية عمل زاحف الويب. يفتح القائمة الأولية للروابط ثم الروابط داخل تلك الروابط وما إلى ذلك.

كتبت ويكيبيديا ، لاحظ باحثو علوم الكمبيوتر فلاديسلاف شكابينيوك وتورستن سويل أن:

في حين أنه من السهل إلى حد ما إنشاء زاحف بطيء يقوم بتنزيل بضع صفحات في الثانية لفترة قصيرة من الوقت ، فإن بناء نظام عالي الأداء يمكنه تنزيل مئات الملايين من الصفحات على مدار عدة أسابيع يمثل عددًا من التحديات في تصميم النظام ، كفاءة الإدخال / الإخراج والشبكة والمتانة وسهولة الإدارة.

فهرسة عمليات الزحف

بعد أن يزحف محرك بحث الأطفال إلى جميع أنحاء الإنترنت ، يقوم بإنشاء فهرس لجميع صفحات الويب التي يجدها في طريقه. يعد وجود فهرس طريقة أفضل من إضاعة الوقت في العثور على استعلام البحث من كومة من المستندات كبيرة الحجم ، حيث سيوفر الوقت والموارد.

هناك العديد من العوامل التي تساهم في إنشاء نظام فهرسة فعال لمحرك البحث. تقنيات التخزين التي يستخدمها المفهرسون ، وحجم الفهرس ، والقدرة على العثور بسرعة على المستندات التي تحتوي على الكلمات الرئيسية التي تم البحث عنها ، وما إلى ذلك هي العوامل المسؤولة عن كفاءة وموثوقية الفهرس.

إحدى العقبات الرئيسية في طريق إنشاء فهارس ويب ناجحة هي الاصطدام بين عمليتين. لنفترض أن إحدى العمليات تريد البحث في مستند وفي نفس الوقت تريد عملية أخرى إضافة مستند في الفهرس ، نوعًا ما يخلق تعارضًا بين العمليتين. تزداد المشكلة سوءًا بسبب تطبيق الحوسبة الموزعة بواسطة محركات البحث من أجل معالجة المزيد من البيانات.

أنواع الفهرس

إعادة توجيه: في هذا النوع من الفهارس ، يتم تخزين جميع الكلمات الأساسية الموجودة في المستند في قائمة. من السهل إنشاء الفهرس الأمامي في مرحلة بداية الفهرسة لأنه يمكّن المفهرسات غير المتزامنة من التعاون مع بعضهم البعض.

فهرس محرك البحث

عكسي: يتم فرز المؤشرات الأمامية وتحويلها إلى فهارس عكسية ، حيث يتم وضع كل مستند يحتوي على كلمة أساسية معينة مع المستندات الأخرى التي تحتوي على تلك الكلمة الأساسية. تسهل المؤشرات العكسية عملية العثور على المستندات ذات الصلة لاستعلام بحث معين ، وهذا ليس هو الحال مع الفهارس الأمامية.

فهرس محرك البحث

اقرأ أيضًا: ما هو DNS (نظام اسم المجال) وكيف يعمل؟

تحليل المستندات

يُطلق عليه أيضًا اسم Tokenization ، ويشير إلى انهيار مكونات المستند مثل الكلمات الرئيسية (تسمى الرموز) والصور والوسائط الأخرى ، بحيث يمكن إدراجها في الفهارس لاحقًا. تركز الطريقة بشكل أساسي على فهم اللغة الأم والتنبؤ بالكلمات الرئيسية التي قد يبحث عنها المستخدم ، والتي تعمل كأساس لإنشاء نظام فهرسة ويب فعال.

تشمل التحديات الرئيسية العثور على حدود الكلمات للكلمات الرئيسية المراد استخراجها ، حيث يمكننا أن نرى لغات مثل الصينية واليابانية لا تحتوي عمومًا على مسافات بيضاء في نصوص لغتها. إن فهم الغموض الذي تمتلكه اللغة هو أيضًا نقطة مثيرة للقلق ، حيث تبدأ بعض اللغات في الاختلاف قليلاً أو حتى إلى حد كبير مع التغيرات الجغرافية. كما أن عدم كفاءة بعض صفحات الويب في عدم ذكر اللغة المستخدمة بوضوح هو أيضًا مصدر قلق ويزيد من عبء العمل على المفهرسات.

تتمتع محركات البحث بالقدرة على التعرف على تنسيقات الملفات المختلفة واستخراج البيانات منها بنجاح ، ومن الضروري توخي أقصى درجات الحذر في هذه الحالات.

تعد العلامات الوصفية مفيدة جدًا أيضًا في إنشاء المؤشرات بسرعة كبيرة ، فهي تقلل من جهود مفهرس الويب وتقلل من الحاجة إلى تحليل المستند بالكامل بالكامل. ستجد العلامات الوصفية مرفقة في الجزء السفلي من هذه المقالة.

البحث في الفهرس

الآن ، لم يعد محرك بحث الأطفال طفلًا بعد الآن ، فقد تعلم كيف يزحف وكيف يمسك الأشياء بسرعة وكفاءة ، وكيف يرتب أغراضه بشكل منهجي. افترض أن صديقه يطلب منه أن يجد شيئًا من ترتيبه ، فماذا سيفعل؟ هناك أربعة أنواع من استعلامات البحث قيد الاستخدام ، على الرغم من أنها ليست مشتقة رسميًا ، لكنها تطورت بمرور الوقت ، ووجد أنها صالحة من حيث استفسارات الحياة الواقعية التي قدمها المستخدمون.

التنقل: يستخدم هذا المصطلح لتلك الاستعلامات التي يريد المستخدم من خلالها الانتقال إلى صفحة ويب معينة أو موقع ويب موجود على الإنترنت. على سبيل المثال ، عندما تبحث عن fossBytes على Google ، فأنت بذلك تبدأ في استعلام ملاحي.

معلوماتية: يحتوي هذا النوع من الاستعلامات على آلاف النتائج ويغطي الموضوعات العامة التي تعزز معرفة المستخدم. على سبيل المثال ، عندما تبحث عن ، على سبيل المثال ، Steve Jobs ، ستظهر لك جميع الروابط ذات الصلة بـ Steve Jobs.

المعاملات: قد تتضمن الاستعلامات التي تركز على نية المستخدم في تنفيذ إجراء معين مجموعة محددة مسبقًا من الإرشادات. على سبيل المثال ، كيف تجد الكمبيوتر المحمول المفقود / المسروق؟

الاتصال: لا يتم استخدام هذا النوع من الاستعلامات بشكل متكرر ، فهي تركز على مدى اتصال الفهرس الذي تم إنشاؤه من موقع ويب. على سبيل المثال ، إذا قمت بالبحث ، كم عدد الصفحات الموجودة على ويكيبيديا؟

ابتكر كل من Google و Bing بعض الخوارزميات الجادة القادرة بما يكفي لتحديد النتائج الأكثر صلة باستعلامك. تدعي Google أنها تحسب نتائج البحث بناءً على أكثر من 200 عامل مثل جودة المحتوى ، الجديد أو القديم ، وأمان صفحة الويب ، وغير ذلك الكثير. لديهم أفضل العقول في العالم المعينين في مختبرات البحث الخاصة بهم ، والذين يقومون بحسابات صعبة ويتعاملون مع الصيغ المذهلة ، فقط لجعل البحث أكثر بساطة وسرعة بالنسبة لك.

ميزات بارزة أخرى *

البحث عن الصور: ستندهش من معرفة مصدر إلهام Google وراء أداة البحث عن الصور الشهيرة. J.Lo ، نعم ، لقد سمعت هذا صحيحًا ، كانت جيه لو وفستانها الأخضر من فيرساتشي (ver-sah-chay) في حفل توزيع جوائز جرامي ، 2000 ، السبب الحقيقي وراء طرح Google للبحث عن الصور ، حيث كان الناس مشغولين في البحث على Google حول لها.

في ذلك الوقت ، كان هذا هو استعلام البحث الأكثر شيوعًا الذي رأيناه على الإطلاق. لكن لم يكن لدينا طريقة مؤكدة للحصول على ما يريده المستخدمون بالضبط: جيه لو يرتدي هذا الفستان. وُلد البحث عن الصور من Google.

سعيد إريك شميدت في كتابته بعنوان "المبتدئ المصلح" المنشورة في 19 يناير 2015.

البحث الصوتي: كانت Google أول من أدخل البحث الصوتي على محرك البحث الخاص بها بعد الكثير من العمل الشاق ، وبالتالي قامت محركات البحث الأخرى بتطبيقه أيضًا.

مكافحة البريد العشوائي: تنشر محركات البحث بعض الخوارزميات الجادة ، حتى تتمكن من حمايتك من هجمات البريد العشوائي . البريد العشوائي هو في الأساس رسالة أو ملف ينتشر في جميع أنحاء الإنترنت ، ربما للإعلان أو لنقل الفيروسات. في هذا الأمر أيضًا ، يقوم رجال Google بإبلاغ موقع الويب الذي يجدون أنه مسؤول يدويًا عن نشر رسائل البريد العشوائي على الإنترنت.

تحسين الموقع: أصبحت محركات البحث الآن قادرة على عرض النتائج بناءً على موقع المستخدم. في حالة البحث ، ما هو الطقس في بنغالورو ، فستكون إحصاءات الطقس في إشارة إلى بنغالورو.

يفهمك بشكل أفضل: محركات البحث الحديثة قادرة على فهم معنى استعلام المستخدم بدلاً من العثور على الكلمات الرئيسية التي أدخلها المستخدم.

الإكمال التلقائي : القدرة على توقع استعلام البحث أثناء الكتابة بناءً على عمليات البحث وعمليات البحث السابقة التي أجراها المستخدمون الآخرون.

الرسم البياني المعرفي: تُظهر هذه الميزة ، التي يوفرها بحث Google ، قدرتها على تقديم نتائج البحث بناءً على الأشخاص والأماكن والأحداث الواقعية.

المراقبة الأبوية: تسمح محركات البحث للآباء من الأنواع الصغيرة بالتحكم في ما كان أطفالهم يصلون إليه على الإنترنت.

* من الصعب تغطية القائمة الواسعة من الميزات التي توفرها محركات البحث القوية هذه.

راسلنا

ساهمت محركات البحث في جعل حياتنا أكثر بساطة والعمل الجاد الذي يقومون به لتسخير جميع المعلومات على الإنترنت لا يقدر بثمن. لكن هذا الاستكشاف أدى إلى عرض مساحتنا الشخصية على منصة عامة ، ويجب أن أقول ، لقد حان الوقت لكي نتشوش بشأن المسار الذي نسلكه كل هذا الوقت الطويل ، ما لم يكن قد فات الأوان بالنسبة لنا لاسترجاع أفعالنا. وحياتنا ما هي إلا بينالي من الإحراج. لا يمكننا إنكار حقيقة أن محركات البحث أصبحت الآن جزءًا حيويًا من شخصيتنا الرقمية المنقسمة. نحن بحاجة فقط إلى الاستفادة من التكنولوجيا التي حصلنا عليها ، وعدم السماح لها باستعبادنا في قيود آثامنا.

حسنًا ، لا مزيد من المحادثات العاطفية ، فقط أعشق الجاذبية والمواهب لمحرك بحث الأطفال الذي أصبح الآن مراهقًا ، ويفهمك بشكل أفضل. لقد كان Google موجودًا للبحث في كل شيء من أجلنا ، إنه الإنترنت بالنسبة للكثيرين منا ، ويجب أن نعتز بتلك التجارب الجيدة التي اكتسبناها أثناء استخدام بحث Google. أوه! لقد نسيت أن أذكر بينج ، أنت رائع أيضًا. ابق متيقظًا ، ابق آمنًا وجوجل ذلك.

شاهد هذا الفيديو وتعرف أكثر على محركات البحث:

هل سبق لك النقر فوق الزر "ضربة حظ " في بحث Google. افتحها وأخبرنا أي رسومات الشعار المبتكرة التي أعجبتك في قسم التعليقات أدناه.