Jak działa wyszukiwarka i ułatwia życie?

Opublikowany: 2015-11-06

praca-wyszukiwarka Krótkie bajty: Wyszukiwarka to oprogramowanie, które umożliwia wyświetlanie odpowiednich wyników stron internetowych na podstawie wprowadzonych zapytań wyszukiwania za pomocą indeksowania i indeksowania sieci Web, niektórych formuł tłuszczowych i inteligentnych algorytmów w celu gromadzenia odpowiednich danych.

W czasie, gdy ta strona została załadowana na Twój komputer, przeprowadzono kilka tysięcy wyszukiwań. Ale czy to kiedykolwiek pobudziło twoje neurony, jak działa wyszukiwarka?

Jak Google zapewnia najlepsze wyniki w mgnieniu oka? Właściwie to nie ma znaczenia, dopóki nie pojawią się Google, Bing. Scenariusz byłby zupełnie inny, gdyby nie było Google, Bing ani Yahoo. Zanurzmy się w świat wyszukiwarek i zobaczmy, jak działa wyszukiwarka.

Zaglądanie do historii

Bajka o wyszukiwarkach zaczęła się w latach 90., kiedy Tim Berners-Lee zwykł wpisywać każdy nowy serwer sieciowy, który przeszedł do sieci, na listę utrzymywaną przez serwer sieciowy CERN. Do września 93 w Internecie nie istniały żadne wyszukiwarki, a jedynie kilka narzędzi, które były w stanie utrzymać bazę danych nazw plików. Archie, Veronica, Jughead byli pierwszymi uczestnikami w tej kategorii.

Oscar Nierstrasz z Uniwersytetu Genewskiego jest akredytowany jako pierwsza wyszukiwarka, która powstała, nazwana W3Catalog. Zrobił kilka poważnych skryptów w Perlu iw końcu wyszedł z pierwszą na świecie wyszukiwarką 3 września 1993 roku. Co więcej, w 1993 roku pojawiło się wiele innych wyszukiwarek. JumpStation autorstwa Jonathona Fletchera, AliWeb, WWW Worm itp. Yahoo! został uruchomiony w 1995 roku jako katalog internetowy, ale zaczął używać wyszukiwarki Inktomi od 2000 roku, a następnie przeniesiony do Bing Microsoftu w 2009 roku.

Teraz, gdy mowa o nazwie, która jest głównym synonimem terminu „wyszukiwarka”, Google Search, była projektem badawczym dla dwóch absolwentów Stanford, Larry'ego Page'a i Sergy'ego Brina, którego pierwsze odciski stopy pojawiły się w marcu 1995 roku. Praca Google była początkowo inspirowana metodą linków zwrotnych Page, która wykonywała obliczenia na podstawie liczby linków zwrotnych pochodzących ze strony internetowej, aby zmierzyć znaczenie tej strony w sieci WWW. „Najlepsza rada, jaką kiedykolwiek otrzymałem”, powiedział Page, wspominając, jak jego przełożony Terry Winograd poparł jego pomysł. I od tego czasu Google nigdy się nie obejrzał.

Wszystko zaczyna się od indeksowania

Wyszukiwarka dla dzieci w początkowej fazie zaczyna eksplorować sieć WWW, swoimi małymi rączkami i kolanami przegląda każdy inny link znaleziony na stronie internetowej i przechowuje je w swojej bazie danych.

Teraz skupmy się na niektórych zakulisowych przemyśleniach technicznych, wyszukiwarka zawiera oprogramowanie Web Crawler, które jest w zasadzie botem internetowym, któremu przypisano zadanie otwierania wszystkich hiperłączy znajdujących się na stronie internetowej i tworzenia bazy danych tekstu i metadanych ze wszystkich linków . Zaczyna się od początkowego zestawu linków do odwiedzenia, zwanych Seeds. Gdy tylko przejdzie do odwiedzania tych linków, dodaje nowe linki do istniejącej listy adresów URL do odwiedzenia, znanej jako Crawl Frontier.

Gdy robot przemierza łącza, pobiera informacje z tych stron internetowych, aby móc je później przeglądać w formie migawek, ponieważ pobranie całej strony wymagałoby wielu danych, a kosztuje to co najmniej kraje takie jak Indie. I mogę się założyć, że gdyby firma Google została założona w Indiach, wszystkie ich pieniądze zostałyby wykorzystane na opłacenie rachunków internetowych. Mam nadzieję, że na razie nie jest to temat do zmartwień.

Przeszukiwacz sieci Web przegląda strony internetowe w oparciu o pewne zasady:

Zasady wyboru: Crawler decyduje, które strony powinien pobrać, a które nie. Polityka wyboru koncentruje się na pobieraniu najbardziej odpowiedniej zawartości strony internetowej, a nie na niektórych nieistotnych danych.

Zasady ponownego odwiedzania: Robot indeksujący planuje czas, w którym powinien ponownie otworzyć strony internetowe i edytować zmiany w swojej bazie danych, dzięki dynamicznej naturze Internetu, co bardzo utrudnia robotom aktualizowanie się o najnowsze wersje strony internetowe.

Polityka równoległości: roboty indeksujące używają wielu procesów jednocześnie do eksploracji łączy znanych jako indeksowanie rozproszone, ale czasami są szanse, że różne procesy mogą pobrać tę samą stronę internetową, więc robot indeksujący utrzymuje koordynację między wszystkimi procesami, aby wyeliminować wszelkie szanse na dwulicowość.

Polityka grzecznościowa: Gdy robot indeksujący przemierza witrynę, jednocześnie pobiera z niej strony internetowe, zwiększając w ten sposób obciążenie serwera internetowego hostującego witrynę. Stąd termin „Crawl-Delay”, w którym robot musi odczekać kilka sekund po pobraniu niektórych danych z serwera internetowego i podlega Polityce grzeczności.

Przeczytaj także: Jak zbudować podstawowy robot indeksujący w Pythonie

Architektura wysokiego poziomu standardowego robota indeksującego:

Gąsienica

Powyższa ilustracja przedstawia działanie robota indeksującego. Otwiera początkową listę linków, a następnie linki wewnątrz tych linków i tak dalej.

Wikipedia pisze, że informatycy Vladislav Shkapenyuk i Torsten Suel zauważyli, że:

Chociaż zbudowanie powolnego robota indeksującego, który pobiera kilka stron na sekundę przez krótki czas, jest dość łatwe, zbudowanie systemu o wysokiej wydajności, który może pobrać setki milionów stron w ciągu kilku tygodni, wiąże się z szeregiem wyzwań w projektowaniu systemu. Wydajność we/wy i sieci oraz niezawodność i łatwość zarządzania.

Indeksowanie indeksowania

Po tym, jak wyszukiwarka dla dzieci przeszuka cały Internet, tworzy indeks wszystkich stron internetowych, które znajdzie na swojej drodze. Posiadanie indeksu jest o wiele lepsze niż marnowanie czasu na znajdowanie zapytania wyszukiwania ze sterty dokumentów o dużym rozmiarze, oszczędza czas i zasoby.

Na stworzenie wydajnego systemu indeksowania dla wyszukiwarki składa się wiele czynników. Stosowane przez indeksatory techniki przechowywania, wielkość indeksu, możliwość szybkiego odnalezienia dokumentów zawierających wyszukiwane słowa kluczowe itp. to czynniki odpowiedzialne za wydajność i niezawodność indeksu.

Jedną z głównych przeszkód na drodze do pomyślnego tworzenia indeksów internetowych jest kolizja między dwoma procesami. Powiedzmy, że jeden proces chce przeszukać dokument, a inny proces chce dodać dokument do indeksu, co powoduje konflikt między tymi dwoma procesami. Problem pogłębia jeszcze implementacja przetwarzania rozproszonego przez wyszukiwarki w celu obsłużenia większej ilości danych.

Rodzaje indeksu

Do przodu: w tego typu indeksach wszystkie słowa kluczowe obecne w dokumencie są przechowywane na liście. Indeks wyprzedzający jest łatwy do utworzenia w początkowej fazie indeksowania, ponieważ umożliwia asynchroniczną współpracę indeksatorów ze sobą.

indeks wyszukiwarki

Odwrotne: Indeksy do przodu są sortowane i konwertowane na indeksy odwrotne, w których każdy dokument zawierający określone słowo kluczowe jest zestawiany z innymi dokumentami zawierającymi to słowo kluczowe. Indeksy odwrotne ułatwiają proces znajdowania odpowiednich dokumentów dla danego zapytania, co nie ma miejsca w przypadku indeksów forward.

indeks wyszukiwarki

Przeczytaj także: Co to jest DNS (system nazw domen) i jak to działa?

Analiza dokumentów

Nazywany również tokenizacją, odnosi się do podziału elementów dokumentu, takich jak słowa kluczowe (tzw. tokeny), obrazy i inne media, aby można je było później wstawić do indeksów. Metoda zasadniczo koncentruje się na zrozumieniu języka ojczystego i przewidywaniu słów kluczowych, których użytkownik może szukać, co stanowi podstawę do stworzenia skutecznego systemu indeksowania stron internetowych.

Główne wyzwania obejmują znalezienie granic wyrazów słów kluczowych, które mają zostać wyodrębnione, ponieważ widzimy, że języki takie jak chiński i japoński zazwyczaj nie mają spacji w swoich skryptach językowych. Zrozumienie niejednoznaczności posiadanej przez język jest również kwestią niepokojącą, ponieważ niektóre języki zaczynają się nieznacznie lub nawet znacznie różnić wraz ze zmianami geograficznymi. Również nieefektywność niektórych stron internetowych, które nie wymieniają wyraźnie używanego języka, jest również kwestią niepokojącą i zwiększa obciążenie indeksatorów.

Wyszukiwarki potrafią rozpoznawać różne formaty plików i skutecznie wydobywać z nich dane, dlatego w takich przypadkach należy zachować szczególną ostrożność.

Metatagi są również bardzo przydatne w bardzo szybkim tworzeniu indeksów, redukują wysiłek indeksatora sieci i łagodzą potrzebę kompletnej analizy całego dokumentu. Znajdziesz metatagi dołączone na dole tego artykułu.

Przeszukiwanie indeksu

Teraz wyszukiwarka dla dzieci nie jest już dzieckiem, nauczył się, jak raczkować i jak szybko i sprawnie chwytać, a także systematycznie układać swoje rzeczy. Załóżmy, że jego przyjaciel prosi go o znalezienie czegoś z jego umowy, co on zrobi? Stosowane są cztery typy zapytań wyszukiwania, chociaż nie są one formalnie wyprowadzone, ale ewoluowały z biegiem czasu i okazały się trafne w kontekście rzeczywistych zapytań tworzonych przez użytkowników.

Nawigacyjny: Termin ten jest używany w przypadku zapytań, w których użytkownik chce przejść do określonej strony internetowej lub witryny internetowej istniejącej w Internecie. Na przykład, gdy wyszukujesz fossBytes w Google, inicjujesz zapytanie nawigacyjne.

Informacyjne: tego typu zapytania mają tysiące wyników i obejmują tematy ogólne, które zwiększają wiedzę użytkownika. Na przykład podczas wyszukiwania, powiedzmy Steve Jobs, zostaną wyświetlone wszystkie linki dotyczące Steve Jobs.

Transakcyjne: Zapytania skupiające się na zamiarze użytkownika do wykonania określonej czynności mogą obejmować predefiniowany zestaw instrukcji. Na przykład, jak znaleźć zgubiony/skradziony laptop?

Łączność: tego typu zapytania nie są często używane, koncentrują się na tym, jak połączony jest indeks utworzony ze strony internetowej. Na przykład, jeśli wyszukujesz, Ile stron jest w Wikipedii?

Google i Bing stworzyły kilka poważnych algorytmów, które są w stanie określić najtrafniejsze wyniki dla Twojego zapytania. Google twierdzi, że oblicza wyniki wyszukiwania na podstawie ponad 200 czynników, takich jak jakość treści, nowe lub stare, bezpieczeństwo strony internetowej i wiele innych. W laboratoriach wyszukiwania wyznaczono największe umysły świata, które wykonują trudne obliczenia i zajmują się oszałamiającymi formułami tylko po to, aby wyszukiwanie było dla Ciebie prostsze i szybsze.

Inne godne uwagi cechy*

Wyszukiwarka grafiki: zdziwisz się, gdy poznasz inspirację Google związaną ze słynnym narzędziem do wyszukiwania grafiki. J.Lo, tak, dobrze słyszałeś, J.Lo i jej zielona suknia Versace (ver-sah-chay) na rozdaniu nagród Grammy w 2000 r. były prawdziwym powodem, dla którego Google pojawił się z wyszukiwaniem obrazów, ponieważ ludzie byli zajęci Googlowaniem jej.

W tamtym czasie było to najpopularniejsze zapytanie, jakie kiedykolwiek widzieliśmy. Ale nie mieliśmy pewnego sposobu, aby użytkownicy mieli dokładnie to, czego chcieli: J.Lo nosi tę sukienkę. Narodziła się wyszukiwarka grafiki Google.

Powiedział Eric Schmidt w swoim piśmie zatytułowanym „Uczeń majsterkowicza”, opublikowanym 19 stycznia 2015 r.

Wyszukiwanie głosowe: Google jako pierwszy wprowadził wyszukiwanie głosowe w swojej wyszukiwarce po wielu ciężkich pracach, a następnie inne wyszukiwarki również je wdrożyły.

Walka ze spamem: Wyszukiwarki stosują kilka poważnych algorytmów, aby chronić Cię przed atakami spamu . Spam to w zasadzie wiadomość lub plik, który jest rozpowszechniany w całym Internecie, na przykład w celu reklamy lub przesyłania wirusów. Również w tej sprawie ludzie z Google ręcznie informują, że strona, którą znaleźli, jest odpowiedzialna za rozprzestrzenianie wiadomości spamowych w Internecie.

Optymalizacja lokalizacji: Wyszukiwarki mogą teraz wyświetlać wyniki na podstawie lokalizacji użytkownika. Jeśli wyszukasz, jaka jest pogoda w Bengaluru, to statystyki pogodowe będą odnosić się do Bengaluru.

Rozumie Cię lepiej: Nowoczesne wyszukiwarki są w stanie zrozumieć znaczenie zapytania użytkownika, zamiast znaleźć słowa kluczowe wprowadzone przez użytkownika.

Autouzupełnianie : możliwość przewidywania zapytania podczas pisania na podstawie wcześniejszych wyszukiwań i wyszukiwań dokonanych przez innych użytkowników.

Graf wiedzy: ta funkcja, udostępniana przez wyszukiwarkę Google, pokazuje jej zdolność do dostarczania wyników wyszukiwania opartych na rzeczywistych osobach, miejscach i wydarzeniach.

Kontrola rodzicielska: Wyszukiwarki pozwalają małym rodzicom kontrolować, co ich dziecko robi w Internecie.

* Trudno opisać obszerną listę funkcji oferowanych przez te potężne wyszukiwarki.

Likwidacja

Wyszukiwarki przyczyniły się do uproszczenia naszego życia, a ciężka praca, jaką wykonują, aby wykorzystać wszystkie informacje w Internecie, jest bezcenna. Ale ta eksploracja doprowadziła do wyeksponowania naszej osobistej przestrzeni na platformie publicznej i muszę powiedzieć, że najwyższy czas, abyśmy się zaniepokoili ścieżką, którą przemierzyliśmy tak długo, chyba że jest już za późno na retrospekcję naszych działań a nasze życie będzie tylko biennale wstydu. Nie możemy zaprzeczyć, że wyszukiwarki są teraz istotną częścią naszej cyfrowej podzielonej osobowości. Musimy tylko skorzystać z technologii, którą otrzymaliśmy, a nie pozwolić, by zniewoliła nas w kajdanach naszych własnych występków.

Dobra, koniec z emocjonalnymi rozmowami, po prostu uwielbiaj słodycz i talenty tej dziecięcej wyszukiwarki, która teraz stała się nastolatką i znacznie lepiej cię rozumie. Google był tam, aby przeszukiwać dla nas wszystko, dla wielu z nas jest to internet i musimy cenić te dobre doświadczenia, które zdobyliśmy podczas korzystania z wyszukiwarki Google. Oh! Zapomniałem wspomnieć o Bingu, ty też jesteś niesamowity. Bądź czujny, bądź bezpieczny i Google to.

Obejrzyj ten film i dowiedz się więcej o wyszukiwarkach:

Czy kiedykolwiek kliknąłeś przycisk „Szczęśliwy traf” w wyszukiwarce Google? Otwórz go i powiedz nam, który doodle najbardziej Ci się podobał w sekcji komentarzy poniżej.