Arama Motoru Nasıl Çalışır ve Hayatınızı Kolaylaştırır?

Yayınlanan: 2015-11-06

arama motoru çalışması Kısa Bayt: Arama Motoru, uygun verileri toplamak için Web Tarama ve Web İndeksleme, bazı yağ formülleri ve akıllı algoritmalar kullanılarak arama sorgusu girişine göre ilgili web sayfası sonuçlarının görüntülenmesini sağlayan bir yazılımdır.

Bu web sayfası bilgisayarınıza yüklendiğinde birkaç bin arama yapıldı. Ancak, bu hiç nöronlarınızı uyardı mı, bir arama motoru nasıl çalışır?

Google, göz açıp kapayıncaya kadar size en iyi sonuçları nasıl sunar? Aslında, Google, Bing orada olana kadar önemli değil. Google, Bing veya Yahoo olmasaydı senaryo çok farklı olurdu. Arama motorlarının dünyasına dalalım ve bir arama motorunun nasıl çalıştığını görelim.

Tarihe göz atmak

Arama motoru peri masalı 1990'larda Tim Berners-Lee'nin çevrimiçi olan her yeni web sunucusunu CERN web sunucusu tarafından tutulan listeye kaydetmesiyle başladı. Eylül 93'e kadar internette hiçbir arama motoru yoktu, ancak dosya adlarından oluşan bir veritabanını tutabilen yalnızca birkaç araç vardı. Archie, Veronica, Jughead bu kategoriye ilk girenler oldu.

Cenevre Üniversitesi'nden Oscar Nierstrasz, ortaya çıkan W3Catalog adlı ilk arama motoru için akredite edilmiştir. Bazı ciddi Perl komut dosyaları yaptı ve sonunda 3 Eylül 1993'te dünyanın ilk arama motorunu ortaya çıkardı. Ayrıca, 1993 yılı diğer birçok arama motorunun ortaya çıkmasına tanık oldu. Jonathon Fletcher tarafından JumpStation, AliWeb, WWW Worm, vb. Yahoo! 1995'te web dizini olarak piyasaya sürüldü, ancak 2000'den itibaren Inktomi'nin motor aramasını kullanmaya başladı ve ardından 2009'da Microsoft'un Bing'ine geçti.

Şimdi, arama motoru teriminin en önemli eş anlamlısı olan Google Arama adından bahsetmek gerekirse, iki Stanford mezunu, Larry Page ve Sergy Brin için ilk ayak izlerini Mart 1995'te alan bir araştırma projesiydi. Google'ın çalışması başlangıçta ilham aldı. Sayfanın World Wide Web'deki önemini ölçmek için bir web sayfasından kaç tane geri bağlantının geldiğine dayalı hesaplamalar yapan Page'in geri bağlantı yöntemiyle. Page, şefi Terry Winograd'ın fikrini nasıl desteklediğini hatırlayarak, “Aldığım en iyi tavsiye” dedi. Ve o zamandan beri, Google bir daha arkasına bakmadı.

Her şey bir taramayla başlar

Gelişmekte olan bir bebek arama motoru, küçük elleri ve dizleriyle World Wide Web'i keşfetmeye başlar, bir web sayfasında bulduğu diğer tüm bağlantıları araştırır ve bunları veritabanında saklar.

Şimdi, sahne arkasındaki bazı teknik düşüncelere odaklanalım, bir arama motoru, temelde bir internet botu olan ve bir web sayfasında bulunan tüm köprüleri açma ve tüm bağlantılardan bir metin ve meta veri veritabanı oluşturma görevi atanan bir Web Tarayıcı yazılımı içerir. . Seeds adı verilen, ziyaret edilecek bir dizi ilk bağlantıyla başlar. Bu bağlantıları ziyaret etmeye devam eder etmez, mevcut ziyaret edilecek URL listesine Tarama Sınırı olarak bilinen yeni bağlantılar ekler.

Tarayıcı bağlantılar arasında gezinirken, tüm web sayfasını indirmek çok fazla veri gerektireceğinden ve en azından bir cep yakma fiyatına sahip olacağından, daha sonra görüntülenmek üzere bu web sayfalarından bilgileri enstantane biçiminde indirir. Hindistan gibi ülkeler. Ve bahse girerim, Google Hindistan'da kurulmuş olsaydı, tüm paraları internet faturalarını ödemek için kullanılacaktı. Umarım, bu şu an için endişe verici bir konu değildir.

Web tarayıcısı, bazı ilkelere dayalı olarak web sayfalarını araştırır:

Seçim Politikası: Hangi sayfaları indirip hangilerini indirmemesi gerektiğine tarayıcı karar verir. Seçim politikası, bazı önemsiz verilerden ziyade bir web sayfasının en alakalı içeriğini indirmeye odaklanır.

Yeniden Ziyaret Politikası: Tarayıcı, İnternetin dinamik yapısı sayesinde, tarayıcıların en son sürümleriyle güncel kalmasını çok zorlaştıran, web sayfalarını yeniden açması ve veritabanındaki değişiklikleri düzenlemesi gereken zamanı planlar. web sayfaları.

Paralelleştirme Politikası: Tarayıcılar, Dağıtılmış Tarama olarak bilinen bağlantıları keşfetmek için aynı anda birden fazla işlem kullanır, ancak bazen farklı işlemlerin aynı web sayfasını indirme olasılığı vardır, bu nedenle tarayıcı, herhangi bir olasılığı ortadan kaldırmak için tüm işlemler arasında bir koordinasyon sağlar. ikiyüzlülük.

Nezaket Politikası: Bir tarayıcı bir web sitesinde gezinirken, aynı anda web sayfalarını buradan indirir, böylece web sitesini barındıran web sunucusundaki yükü artırır. Bu nedenle, tarayıcının bir web sunucusundan bazı verileri indirdikten sonra birkaç saniye beklemesi gereken bir "Tarama Gecikmesi" terimi uygulanır ve Nezaket Politikası tarafından yönetilir.

Ayrıca okuyun: Python'da Temel Bir Web Tarayıcı Nasıl Oluşturulur

Standart bir Web Tarayıcısının Üst Düzey Mimarisi:

paletli

Yukarıdaki çizim, bir web tarayıcısının nasıl çalıştığını göstermektedir. İlk bağlantı listesini açar ve ardından bu bağlantıların içindeki bağlantıları vb.

Wikipedia yazıyor, bilgisayar bilimi araştırmacıları Vladislav Shkapenyuk ve Torsten Suel şunları kaydetti:

Kısa bir süre için saniyede birkaç sayfa indiren yavaş bir tarayıcı oluşturmak oldukça kolay olsa da, birkaç hafta içinde yüz milyonlarca sayfa indirebilen yüksek performanslı bir sistem oluşturmak, sistem tasarımında bir takım zorluklar sunar. G/Ç ve ağ verimliliği, sağlamlık ve yönetilebilirlik.

Taramaları indeksleme

Bebek arama motoru tüm internette gezindikten sonra, yolunda bulduğu tüm web sayfalarının bir Dizini'ni oluşturur. Bir dizine sahip olmak, bir yığın büyük boyutlu belgeden arama sorgusunu bulmak için zaman kaybetmekten çok daha iyidir, hem zaman hem de kaynak tasarrufu sağlar.

Bir arama motoru için verimli bir indeksleme sistemi oluşturmaya katkıda bulunan birçok faktör vardır. İndeks oluşturucular tarafından kullanılan depolama teknikleri, indeksin boyutu, aranan anahtar kelimeleri içeren dokümanları hızlı bir şekilde bulma yeteneği, vb. bir indeksin verimliliğinden ve güvenilirliğinden sorumlu faktörlerdir.

Başarılı web indeksleri oluşturma yolundaki en büyük engellerden biri, iki süreç arasındaki çarpışmadır. Diyelim ki bir süreç bir belge aramak istiyor ve aynı zamanda başka bir süreç dizine bir belge eklemek istiyor, iki süreç arasında bir tür çatışma yaratıyor. Sorun, daha fazla veriyi işlemek için arama motorları tarafından dağıtılmış bilgi işlemin uygulanmasıyla daha da kötüleşiyor.

Dizin Türleri

İleri: Bu tür dizinlerde, bir belgede bulunan tüm anahtar kelimeler bir listede saklanır. Zaman uyumsuz dizin oluşturucuların birbirleriyle işbirliği yapmasına olanak tanıdığından, dizin oluşturmanın başlangıç ​​aşamasında ileri dizin oluşturmak kolaydır.

arama motoru dizini

Ters: İleri endeksler sıralanır ve belirli bir anahtar kelimeyi içeren her belgenin o anahtar kelimeyi içeren diğer belgelerle bir araya getirildiği ters endekslere dönüştürülür. Ters dizinler, belirli bir arama sorgusu için ilgili belgeleri bulma sürecini kolaylaştırır; bu, ileri dizinlerde geçerli değildir.

arama motoru dizini

Ayrıca Okuyun: DNS (Alan Adı Sistemi) Nedir ve Nasıl Çalışır?

Belgelerin Ayrıştırma

Belirteçleştirme olarak da adlandırılan, anahtar sözcükler (belirteçler olarak adlandırılır), resimler ve diğer ortamlar gibi bir belgenin bileşenlerinin daha sonra dizinlere eklenebilmeleri için dökümünü ifade eder. Yöntem temel olarak ana dili anlamaya ve bir kullanıcının arayabileceği, etkili bir web indeksleme sistemi oluşturmanın temeli olarak hizmet eden anahtar kelimeleri tahmin etmeye odaklanır.

Başlıca Zorluklar, çıkarılacak anahtar kelimelerin sözcük sınırlarını bulmayı içerir, çünkü Çince ve Japonca gibi dillerin dil komut dosyalarında genellikle boşluklar olmadığını görebiliriz. Bir dilin sahip olduğu belirsizliği anlamak da bir endişe noktasıdır, çünkü bazı diller coğrafi değişikliklerle biraz veya hatta önemli ölçüde farklılaşmaya başlar. Ayrıca, bazı web sayfalarının kullanılan dilin açıkça belirtilmemesi verimsizliği de endişe vericidir ve indeksleyicilerin iş yükünü arttırır.

Arama motorları, çeşitli dosya formatlarını tanıma ve bunlardan başarılı bir şekilde veri çıkarma yeteneğine sahiptir ve bu durumlarda azami özen gösterilmesi gerekmektedir.

Meta Etiketler ayrıca indeksleri çok hızlı bir şekilde oluşturmada çok faydalıdır, web indeksleyicinin çabalarını azaltır ve tüm belgeyi tamamen ayrıştırma ihtiyacını kolaylaştırır. Bu makalenin altına eklenmiş Meta Etiketleri bulacaksınız.

Dizin aranıyor

Artık bebek arama motoru artık bir bebek değil, emeklemeyi, eşyaları hızlı ve verimli bir şekilde tutmayı, eşyalarını sistemli bir şekilde düzenlemeyi öğrendi. Diyelim ki arkadaşı, düzenlemesinden bir şey bulmasını istiyor, ne yapacak? Resmi olarak türetilmemiş olsalar da, kullanımda olan dört tür arama sorgusu vardır, ancak bunlar zaman içinde gelişmiştir ve kullanıcılar tarafından yapılan gerçek yaşam sorguları açısından geçerli oldukları bulunmuştur.

Gezinme: Bu terim, kullanıcının internette var olan belirli bir web sayfasına veya web sitesine gitmek istediği sorgular için kullanılır. Örneğin, Google'da fossBytes'ı aradığınızda, bir Gezinme Sorgusu başlatıyorsunuz.

Bilgilendirici: Bu tür sorguların binlerce sonucu vardır ve kullanıcının bilgisini artıran genel konuları kapsar. Örneğin, Steve Jobs'u aradığınızda, Steve Jobs ile ilgili tüm bağlantılar karşınıza çıkacaktır.

İşlemsel: Kullanıcının belirli bir eylemi gerçekleştirme amacına odaklanan sorgular, önceden tanımlanmış bir dizi talimat içerebilir. Örneğin, Kayıp/Çalınan Dizüstü Bilgisayarınızı Nasıl Bulabilirsiniz?

Bağlantı: Bu tür sorgular sık ​​kullanılmazlar, bir web sitesinden oluşturulan dizinin ne kadar bağlantılı olduğuna odaklanırlar. Örneğin, arama yaparsanız, Wikipedia'da kaç sayfa var?

Google ve Bing, sorgunuzla en alakalı sonuçları belirlemeye yetecek kadar ciddi bazı algoritmalar oluşturmuştur. Google, arama sonuçlarınızı içeriğin kalitesi, yeni veya eski, web sayfasının güvenliği ve daha pek çok şey gibi 200'den fazla faktöre göre hesapladığını iddia ediyor. Zor hesaplamalar yapan ve akıllara durgunluk veren formüllerle uğraşan Arama laboratuvarlarında, yalnızca Arama'yı sizin için daha basit ve hızlı hale getirmek için atanan dünyanın en büyük beyinlerine sahipler.

Diğer önemli özellikler*

Görsel Arama: Google'ın ünlü görsel arama araçlarının ardındaki ilhamı öğrenince şaşıracaksınız. J.Lo, evet doğru duydunuz, J.Lo ve 2000 Grammy Ödülleri'ndeki yeşil Versace (ver-sah-chay) elbisesi, insanlar Google'da gezinmekle meşgulken Google'ın görsel arama özelliğini ortaya çıkarmasının gerçek nedeniydi. ona.

O zamanlar, şimdiye kadar gördüğümüz en popüler arama sorgusuydu. Ancak kullanıcılara tam olarak istediklerini almanın kesin bir yolu yoktu: J.Lo'nun o elbiseyi giymesi. Google Görsel Arama doğdu.

Said Eric Schmidt, 19 Ocak 2015'te yayınlanan “Tinker'in Çırağı” başlıklı yazısında.

Sesli Arama: Google, uzun uğraşlar sonucunda sesli aramayı arama motorunda ilk kez kullanıma sundu ve ardından diğer arama motorları da bunu uyguladı.

Spam Mücadelesi: Arama motorları, sizi spam saldırılarından koruyabilmeleri için bazı ciddi algoritmalar kullanır. İstenmeyen e-posta, temel olarak, belki reklam veya virüs bulaştırmak için tüm internete yayılmış bir mesaj veya dosyadır. Bu konuda da Google çalışanları, internette spam mesajların yayılmasından sorumlu buldukları web sitesini manuel olarak bilgilendirir.

Konum Optimizasyonu: Arama motorları artık kullanıcının konumuna göre sonuçları görüntüleyebilir. Arama yaparsanız, Bengaluru'da hava nasıl, o zaman hava durumu istatistikleri Bengaluru ile ilgili olacaktır.

Sizi daha iyi anlar: Modern arama motorları, kullanıcının girdiği anahtar kelimeleri bulmak yerine, kullanıcı sorgusunun anlamını anlama yeteneğine sahiptir.

Otomatik tamamlama : Siz yazarken arama sorgunuzu önceki aramalarınıza ve diğer kullanıcılar tarafından yapılan aramalara göre tahmin etme yeteneği.

Bilgi Grafiği: Google Arama tarafından sağlanan bu özellik, gerçek hayattaki kişilere, yerlere ve olaylara dayalı arama sonuçları sağlama becerisini gösterir.

Ebeveyn Kontrolü: Arama motorları, küçük türden ebeveynlerin, çocuklarının internette neler yaptığını kontrol etmelerine izin verir.

* Bu güçlü arama motorları tarafından sağlanan geniş özellikler listesini kapsamak zordur.

sarma

Arama motorları hayatımızı kolaylaştırmaya katkıda bulundular ve internetteki tüm bilgileri kullanmak için yaptıkları sıkı çalışma paha biçilemez. Ancak bu keşif, kişisel alanımızın halka açık bir platformda sergilenmesine yol açtı ve söylemeliyim ki, eylemlerimizi geriye dönük olarak gözden geçirmek için çok geç değilse, bunca zamandır kat ettiğimiz yol hakkında telaşlanmamızın tam zamanıdır. ve hayatımız sadece bir utanç bienali olabilir. Arama motorlarının artık dijital bölünmüş kişiliğimizin hayati bir parçası olduğu gerçeğini inkar edemeyiz. Bize bahşedilen teknolojiyi kullanmamız gerekiyor, onun bizi kendi hatalarımızın zincirleri arasında esir almasına izin vermemeliyiz.

Tamam, artık duygusal konuşmalar yok, sadece artık ergen olan ve sizi çok daha iyi anlayan bebek arama motorunun zekâsına ve yeteneklerine hayran kalın. Google bizim için her şeyi aramak için oradaydı, çoğumuz için internettir ve Google Arama'yı kullanırken kazandığımız bu iyi deneyimlerin kıymetini bilmeliyiz. Ah! Bing'den bahsetmeyi unuttum, sen de harikasın. Uyanık kalın, güvende kalın ve Google'da kalın.

Bu videoyu izleyin ve arama motorları hakkında daha fazla bilgi edinin:

Google Arama'da Kendimi Şanslı Hissediyorum düğmesini hiç tıkladınız mı? Açın ve aşağıdaki yorumlar bölümünde en çok hangi doodle'ı beğendiğinizi bize bildirin.