¿Cómo funciona el motor de búsqueda y te hace la vida más fácil?

Publicado: 2015-11-06

funcionamiento del motor de búsqueda Bytes cortos: el motor de búsqueda es un software que permite la visualización de resultados relevantes de la página web en función de la entrada de la consulta de búsqueda mediante el uso de rastreo web e indexación web, algunas fórmulas gruesas y algoritmos inteligentes para recopilar los datos apropiados.

Se realizaron unos cuantos miles de búsquedas en el momento en que esta página web se cargó en su computadora. Pero, ¿esto alguna vez estimuló tus neuronas, cómo funciona un buscador?

¿Cómo te ofrece Google los mejores resultados en un abrir y cerrar de ojos? En realidad, no importa hasta que Google, Bing estén allí. El escenario hubiera sido muy diferente si no hubiera existido Google, Bing o Yahoo. Sumerjámonos en el mundo de los motores de búsqueda y veamos cómo funciona un motor de búsqueda.

Espiando en la historia

El cuento de hadas de los motores de búsqueda comenzó en la década de 1990, cuando Tim Berners-Lee solía registrar cada nuevo servidor web que se conectaba a la lista mantenida por el servidor web del CERN. Hasta septiembre de 1993 no existían motores de búsqueda en Internet, sino sólo unas pocas herramientas que eran capaces de mantener una base de datos de nombres de archivos. Archie, Veronica, Jughead fueron los primeros participantes en esta categoría.

Oscar Nierstrasz de la Universidad de Ginebra está acreditado para el primer motor de búsqueda que se creó, llamado W3Catalog. Hizo algunos scripts serios de Perl y finalmente presentó el primer motor de búsqueda del mundo el 3 de septiembre de 1993. Además, el año 1993 vio el advenimiento de muchos otros motores de búsqueda. JumpStation de Jonathon Fletcher, AliWeb, WWW Worm, etc. Yahoo! se lanzó en 1995 como directorio web, pero comenzó a usar el motor de búsqueda de Inktomi a partir de 2000 y luego cambió a Bing de Microsoft en 2009.

Ahora, hablando del nombre que es el principal sinónimo del término motor de búsqueda, Google Search, fue un proyecto de investigación de dos graduados de Stanford, Larry Page y Sergy Brin, que tuvo sus huellas iniciales en marzo de 1995. El trabajo de Google se inspiró inicialmente por el método de back-linking de Page, que hizo cálculos basados ​​en cuántos backlinks se originaron en una página web, para medir la importancia de esa página en la World Wide Web. “El mejor consejo que he recibido”, dijo Page, mientras recordaba cómo su supervisor Terry Winograd apoyó su idea. Y desde entonces, Google nunca miró hacia atrás.

Todo comienza con un rastreo

Un motor de búsqueda de bebés en su etapa incipiente comienza a explorar la World Wide Web, con sus pequeñas manos y rodillas explora todos los demás enlaces que encuentra en una página web y los almacena en su base de datos.

Ahora, centrémonos en algunos pensamientos técnicos detrás de escena, un motor de búsqueda incorpora un software Web Crawler que es básicamente un robot de Internet al que se le asigna la tarea de abrir todos los hipervínculos presentes en una página web y crear una base de datos de texto y metadatos de todos los enlaces. . Comienza con un conjunto inicial de enlaces para visitar, llamado Seeds. Tan pronto como continúa visitando esos enlaces, agrega nuevos enlaces en la lista existente de URL para visitar, conocida como Crawl Frontier.

A medida que el Crawler recorre los enlaces, descarga la información de esas páginas web para verla más tarde en forma de instantáneas, ya que descargar toda la página web requeriría una gran cantidad de datos, y tiene un precio de bolsillo, al menos en países como la India. Y puedo apostar que si Google se fundara en India, todo su dinero se usaría para pagar las facturas de Internet. Con suerte, ese no es un tema de preocupación a partir de ahora.

El rastreador web explora las páginas web en función de algunas políticas:

Política de selección: el rastreador decide qué páginas debe descargar y cuáles no. La política de selección se centra en descargar el contenido más relevante de una página web en lugar de algunos datos sin importancia.

Política de nueva visita: el rastreador programa el momento en que debe volver a abrir las páginas web y editar los cambios en su base de datos, gracias a la naturaleza dinámica de Internet, lo que dificulta que los rastreadores se mantengan actualizados con las últimas versiones de las paginas web

Política de paralelización: los rastreadores usan varios procesos a la vez para explorar los enlaces conocidos como rastreo distribuido, pero a veces hay posibilidades de que diferentes procesos descarguen la misma página web, por lo que el rastreador mantiene una coordinación entre todos los procesos para eliminar cualquier posibilidad de duplicidad.

Política de cortesía: cuando un rastreador atraviesa un sitio web, simultáneamente descarga páginas web de él, lo que aumenta la carga en el servidor web que aloja el sitio web. Por lo tanto, se implementa un término "Retraso de rastreo" en el que el rastreador tiene que esperar unos segundos después de descargar algunos datos de un servidor web y se rige por la Política de cortesía.

Lea también: Cómo construir un rastreador web básico en Python

Arquitectura de alto nivel de un rastreador web estándar:

tractor

La ilustración anterior muestra cómo funciona un rastreador web. Abre la lista inicial de enlaces y luego los enlaces dentro de esos enlaces y así sucesivamente.

Wikipedia escribe, los investigadores de informática Vladislav Shkapenyuk y Torsten Suel señalaron que:

Si bien es bastante fácil construir un rastreador lento que descargue unas pocas páginas por segundo durante un período corto de tiempo, construir un sistema de alto rendimiento que pueda descargar cientos de millones de páginas durante varias semanas presenta una serie de desafíos en el diseño del sistema. E/S y eficiencia de red, robustez y capacidad de gestión.

Indexando los rastreos

Después de que el motor de búsqueda de bebés rastrea Internet, crea un índice de todas las páginas web que encuentra en su camino. Tener un índice es mucho mejor que perder el tiempo buscando la consulta de búsqueda en un montón de documentos de gran tamaño, ahorrará tiempo y recursos.

Hay muchos factores que contribuyen a crear un sistema de indexación eficiente para un motor de búsqueda. Las técnicas de almacenamiento utilizadas por los indexadores, el tamaño del índice, la capacidad de encontrar rápidamente los documentos que contienen las palabras clave buscadas, etc. son los factores responsables de la eficiencia y confiabilidad de un índice.

Uno de los principales obstáculos en el camino para crear índices web exitosos es la colisión entre dos procesos. Digamos que un proceso quiere buscar un documento y al mismo tiempo otro proceso quiere agregar un documento en el índice, crea un conflicto entre los dos procesos. El problema se agrava más con la implementación de la computación distribuida por parte de los motores de búsqueda para manejar más datos.

Tipos de índice

Adelante: En este tipo de índices, todas las palabras clave presentes en un documento se almacenan en una lista. El índice directo es fácil de crear en la fase inicial de la indexación, ya que permite que los indexadores asincrónicos colaboren entre sí.

índice del motor de búsqueda

Inverso: los índices directos se clasifican y convierten en índices inversos, en los que cada documento que contiene una palabra clave específica se junta con otros documentos que contienen esa palabra clave. Los índices inversos facilitan el proceso de búsqueda de documentos relevantes para una consulta de búsqueda determinada, lo que no ocurre con los índices directos.

índice del motor de búsqueda

Lea también: ¿Qué es el DNS (Sistema de nombres de dominio) y cómo funciona?

Análisis de documentos

También llamada tokenización, se refiere al desglose de los componentes de un documento, como palabras clave (llamados tokens), imágenes y otros medios, para que puedan insertarse en índices más adelante. El método básicamente se enfoca en comprender el idioma nativo y predecir las palabras clave que un usuario podría buscar, lo que sirve como base para crear un sistema de indexación web efectivo.

Los principales desafíos incluyen encontrar los límites de las palabras clave que se extraerán, ya que podemos ver que los idiomas como el chino y el japonés generalmente no tienen espacios en blanco en sus scripts de idioma. Comprender la ambigüedad que posee un idioma también es motivo de preocupación, ya que algunos idiomas comienzan a diferir levemente o incluso considerablemente con los cambios geográficos. Además, la ineficiencia de algunas páginas web al no mencionar claramente el idioma utilizado también es motivo de preocupación y aumenta la carga de trabajo de los indexadores.

Los motores de búsqueda tienen la capacidad de reconocer varios formatos de archivo y extraer datos de ellos con éxito, y es necesario tener sumo cuidado en estos casos.

Las metaetiquetas también son muy útiles para crear índices muy rápidamente, reducen los esfuerzos del indexador web y facilitan la necesidad de analizar completamente todo el documento. Encontrará metaetiquetas adjuntas al final de este artículo.

Buscando en el índice

Ahora, el motor de búsqueda de bebés ya no es un bebé, ha aprendido a gatear y a agarrar cosas de manera rápida y eficiente, y a organizar sus cosas sistemáticamente. Supongamos que su amigo le pide que encuentre algo de su arreglo, ¿qué hará? Hay cuatro tipos de consultas de búsqueda en uso, aunque no se derivan formalmente, pero han evolucionado con el tiempo y se ha encontrado que son válidas en términos de consultas de la vida real realizadas por los usuarios.

Navegacional: Este término se utiliza para aquellas consultas en las que el usuario desea ir a una determinada página web o sitio web existente en Internet. Por ejemplo, cuando busca fossBytes en Google, está iniciando una consulta de navegación.

Informativas: este tipo de consultas tienen miles de resultados y abarcan temas generales que mejoran el conocimiento del usuario. Por ejemplo, cuando busque, por ejemplo, Steve Jobs, se le presentarán todos los enlaces relevantes para Steve Jobs.

Transaccional: las consultas que se centran en la intención del usuario de realizar una acción en particular pueden incluir un conjunto predefinido de instrucciones. Por ejemplo, ¿Cómo encontrar su computadora portátil perdida o robada?

Conectividad: Este tipo de consultas no son muy utilizadas, se enfocan en qué tan conectado está el índice creado a partir de un sitio web. Por ejemplo, si busca, ¿cuántas páginas hay en Wikipedia?

Google y Bing han creado algunos algoritmos serios que son lo suficientemente capaces de determinar los resultados más relevantes para su consulta. Google afirma calcular los resultados de su búsqueda en función de más de 200 factores, como la calidad del contenido, nuevo o antiguo, la seguridad de la página web y muchos más. Tienen las mentes más brillantes del mundo designadas en sus laboratorios de búsqueda, que hacen cálculos difíciles y manejan fórmulas alucinantes, solo para hacer que la búsqueda sea más simple y rápida para usted.

Otras características notables*

Búsqueda de imágenes: te sorprenderá saber la inspiración de Google detrás de su famosa herramienta de búsqueda de imágenes. J.Lo, sí, escuchaste bien, J.Lo y su vestido verde Versace (ver-sah-chay) en los Premios Grammy, 2000, fueron la verdadera razón por la que Google lanzó su búsqueda de imágenes, ya que la gente estaba ocupada buscando en Google. su.

En ese momento, era la consulta de búsqueda más popular que jamás habíamos visto. Pero no teníamos una forma segura de conseguir que los usuarios obtuvieran exactamente lo que querían: J.Lo con ese vestido. Nació la búsqueda de imágenes de Google.

Dijo Eric Schmidt en su escrito titulado, “The Tinkerer's Apprentice”, publicado el 19 de enero de 2015.

Búsqueda por voz: Google fue el primero en introducir la búsqueda por voz en su motor de búsqueda después de mucho trabajo y, posteriormente, otros motores de búsqueda también la implementaron.

Lucha contra el correo no deseado: los motores de búsqueda implementan algunos algoritmos serios para que puedan protegerlo de los ataques de correo no deseado . Un spam es básicamente un mensaje o un archivo que se distribuye por Internet, tal vez para publicidad o para transmitir virus. En este asunto también, los chicos de Google informan manualmente al sitio web que encuentran que es responsable de difundir mensajes de spam en Internet.

Optimización de ubicación: los motores de búsqueda ahora pueden mostrar resultados según la ubicación del usuario. Si busca ¿Cómo es el clima en Bangalore?, entonces las estadísticas meteorológicas se referirán a Bangalore.

Te entiende mejor: los motores de búsqueda modernos son capaces de comprender el significado de la consulta del usuario en lugar de encontrar las palabras clave ingresadas por el usuario.

Autocompletar : la capacidad de predecir su consulta de búsqueda a medida que escribe en función de sus búsquedas anteriores y las búsquedas realizadas por otros usuarios.

Gráfico de conocimiento: esta función, proporcionada por la Búsqueda de Google, muestra su capacidad para proporcionar resultados de búsqueda basados ​​en personas, lugares y eventos de la vida real.

Control parental: los motores de búsqueda permiten a los padres de niños pequeños controlar lo que su hijo ha estado haciendo en Internet.

* Es difícil cubrir la amplia lista de funciones que ofrecen estos potentes motores de búsqueda.

liquidación

Los motores de búsqueda han contribuido a hacernos la vida más sencilla y el arduo trabajo que han estado haciendo para aprovechar toda la información en Internet no tiene precio. Pero esta exploración ha llevado a la exhibición de nuestro espacio personal en una plataforma pública, y debo decir que ya es hora de que nos pongamos nerviosos por el camino que hemos estado recorriendo todo este tiempo, a menos que sea demasiado tarde para que hagamos una retrospectiva de nuestras acciones. y nuestra vida sólo será una bienal de vergüenzas. No podemos negar el hecho de que los motores de búsqueda ahora son una parte vital de nuestra personalidad dividida digital. Solo necesitamos hacer uso de la tecnología que se nos ha dado, no permitir que nos esclavice en las cadenas de nuestras propias fechorías.

De acuerdo, no más conversaciones emocionales, solo adore la ternura y los talentos de ese motor de búsqueda de bebés que ahora se ha convertido en un adolescente y lo comprende mucho mejor. Google ha estado allí para buscar todo por nosotros, es Internet para muchos de nosotros, y debemos apreciar esas buenas experiencias que hemos ganado al usar la Búsqueda de Google. ¡Oh! Olvidé mencionar a Bing, tú también eres genial. Manténgase alerta, manténgase seguro y búsquelo en Google.

Mira este video y conoce más sobre los motores de búsqueda:

¿Alguna vez has hecho clic en el botón Me siento afortunado en la Búsqueda de Google? Ábralo y díganos qué garabato le gustó más en la sección de comentarios a continuación.