Paisajismo galáctico: Pequeña introducción a Google

En enero de 1996, Larry Page y Sergey Brin, dos estudiantes de posgrado en Ciencias de la Computación en Stanford, desarrollan como proyecto un buscador de internet, al que llamaron BackRub. Un año después, le cambiaron el nombre a Google haciendo referencia al gúgol por el enorme número de páginas e información que ya había en internet.

Aunque comúnmente por Google entendamos el buscador de texto, Google ahora es también la principal compañía subsidiaria de la empresa multinacional Alphabet Inc., dedicada a la biotecnología y domótica, entre otras. Desde que su motor de búsqueda se estrenó en septiembre de 1999 (con ochenta procesadores y dos routers HP), sus herramientas, páginas y aplicaciones no han parado de crecer. Tras superar como motor de búsqueda a AltaVista, en el 2000 Google estrenó AdWords, su sistema de publicidad y la Barra Google. En 2005 nació Google Maps y Google Earth, en 2006 Picasa, Google Docs, Google Calendar y Google Apps, además de que compró YouTube. Y esta lista parece casi interminable hasta el presente: Gmail, Google Sites, Chrome…

La popularidad de Google (su motor de búsqueda es el sitio web que más se visita a nivel mundial) y su eficacia (cuenta con miles de servidores) hace que se pueda estudiar sociológicamente a las poblaciones a través de los términos que emplean en sus búsquedas, como sus tendencias económicas o sociales. Pero no todo es un camino de rosas, ya que se sabe que Google ha colaborado con la Red de Vigilancia Mundial: en 2013 se publicó en The Guardian y en The Washington Post cómo Google cedió información de sus usuarios al programa de vigilancia PRISM, un programa la Agencia Nacional de Seguridad estadounidense aprobado por G.W. Bush dedicado a recolectar desde 2007 información de la población a través de Apple, Microsoft o Facebook, entre otros. Google se defendió de las acusaciones alegando que “Google se preocupa mucho por la seguridad de los datos de sus usuarios. Proporcionamos información al Gobierno de acuerdo a la ley y revisamos toda petición cuidadosamente. De vez en cuando, algunas personas dicen que hemos creado una puerta trasera en nuestros sistemas, pero Google no tiene tal acceso para que el Gobierno tenga acceso a los datos privados de nuestros usuarios”.[1]

El algoritmo de Google por el que, tras escribir algo en el buscador, en milésimas de segundo, se seleccionan y se nos muestran una serie de resultados, va mejorándose y reforzándose con el paso del tiempo; y esto lo hace para defenderse de quienes intentan manipular los resultados de la búsqueda. Un ejemplo, cuando se buscaba “miserable failure” en Google, como resultado aparecía la página oficial de Bush de la Casa Blanca con su biografía. Para vengarse, sus defensores trataron de hacer lo mismo con Michael Moore.

Este algoritmo es un poco complejo, pero es posible entenderlo aunque no seamos personas expertas en matemáticas. El primer paso se llama crawling o crawleo. Un crawler, también llado “araña web”, es un pequeño programa diseñado por Google que analiza, rastrea, se pasea por millones de páginas, en busca de la información que el usuario desea. Este crawler empieza desde unas determinadas páginas y, mediante sus enlaces, llega a otras. Es decir, la araña va tejiendo redes de unas páginas a otras. Los crawlers van evolucionando; por ejemplo, con Google Caffeine se empezó a tomar en cuenta la edad que tenían los sitios web (y su posible declive en cuanto a interés o mayor desactualización), y con Google Hummingbird se consiguió que el buscador pudiera responder preguntas y no solo interpretar cada palabra de forma separada.

Después viene la indexación, la ordenación de lo que nuestra araña ha encontrado. No solo recolecta los sitios con exactamente lo escrito sino que, como es inteligente, entiende cuándo hemos cometido fallos ortográficos o tipográficos, o incluye tanto plurales como singulares, o sinónimos, por ejemplo. Así es como se forman las SERPS, Search Engine Results Pages, que en castellano conocemos como las páginas de resultados.

¿Pero cómo son estas ordenadas y clasificadas? El algoritmo PageRank es el que analiza qué páginas colocar entre los primeros resultados. Básicamente, asigna valores numéricos a cada sitio web en función de las referencias que haya a él o de los enlaces a él desde otras páginas (además de tener en cuenta las palabras introducidas para la búsqueda).

En cualquier caso, las entrañas del logaritmo van cambiando frecuentemente para que no sea fácil para nadie posicionarse entre los primeros puestos sin habérselo ganado, además de que se mantienen en secreto para seguir manteniendo ventaja frente a otros motores de búsqueda.

[1] https://es.wikipedia.org/wiki/PRISM#Sistemas

Paisajismo galáctico

viernes, 22 de mayo de 2020

Pequeña introducción a Google

No hay comentarios:

Publicar un comentario