domingo, 11 de agosto de 2013

PageRank - Google 

Bueno este pequeño post va ser algo diferente a los demás....Vamos a analizar a nuestro gran buscador y amigo Google. Pues creo que muchos lo utilizamos sin saber como trabaja  para poder mostrarnos en su ranking las opciones mas "adecuadas" de nuestra búsqueda que ingresamos.Bueno es hora de poner una pequeña lupa a Google.



Cuando deseamos encontrar algún tipo de información en Internet, normalmente necesitamos buscadores para que nos brinde algunas posibles opciones de las cuales vamos comenzar acceder para extraer nuestra información que requerimos. Existen una cierta variedad de buscadores en Internet como los son : Google , Yahoo , Bing , Yandex , etc.

Pero la gran duda que nos trae esto es las entender como estos buscadores ordenan las variadas y sinfin de paginas relacionadas con nuestra busqueda. En este caso vamos a entrar a inspeccionar a nuestro mas querido amigo Google. Pero antes un poco de historia de nuestro objeto de estudio.


Larry Page y Sergey Brin (dos estudiantes de Ciencias de la Computación) se conocieron en la Universidad de Stanford, un año después desarrollaron un motor de búsqueda resultado de la tesis doctoral de Larry y Sergey para mejorar las búsquedas en Internet.

Frente al creciente flujo de información que navegaba por internet el buscador tuvo una gran acogida por los usuarios. Este motor de búsqueda creado por los estudiantes se baso en el estudio matemático de las relaciones entre los diferentes sitios, cuyo resultado era mucho mejor que las técnicas rudimentarias que se empleaban en ese entonces. Convencidos de que las páginas mas pertinentes son las mas frecuentemente citadas (las que los otros sitios ponen como referencia en la lista de enlaces en hipertexto). El dominio "Google" fue registrado el 15 de septiembre de 1997. Partiendo del proyecto concluido, Page y Brin fundan, el 4 de septiembre de 1998, la compañía Google Inc., que estrena en Internet su motor de búsqueda el 27 de septiembre siguiente (considerada la fecha de aniversario).




PageRank.


El modelo que nació por parte de los creadores de Google fue el "PageRank". En este modelo se buscaba medir la importancia relativa de las páginas webs. Dicha importancia se vería reflejado en el ordenamiento, claro esta después de realizar una serie de cálculos cuyas entradas en juego iban a ser todas las páginas relacionadas de cierta forma con nuestra palabra de búsqueda.


En este método, la importancia de las páginas web es reevaluada permanentemente en función a la cantidad de menciones de que son objeto en los diferentes sitios. Por lo tanto, los sitios aislados, que no figuren en las listas de enlaces hipertextuales, resultan poco visibles, sin 'legitimidad'. En cambio los sitios muy citados se convierten para Google en sitios de referencia.



Las variables a considerar al momento de evaluar un sitio web son :

Cantidad de vínculos entrantes : Cantidad de paginas que tienen un vínculo hacia la página.

Cantidad de vínculos salientes : Cantidad de paginas que tiene un vinculo hacia otras páginas.



Después de ver las variables que entran en juego, podemos pensar que las páginas que son apuntadas desde otras van a tener cierto privilegio en el PageRank que las restantes que tienen menos indices de llegada a un punto, pues no del todo es cierto. En este punto también va a entrar una tercera variable que es la del privilegio de la página. Por ejemplo si una página tiene un vínculo de la página principal de Google, este puede ser un solo vínculo de entrada hacia una página, pero destaca por la procedencia de enlace. Dicha página debería estar mejor clasificada que otras páginas con muchos vínculos pero de lugares desconocidos.


Esto nos lleva a la conclusión que para clasificar la posición de una página, se va a considerar la suma de las entradas que llegan a ella y también el valor que tiene cada entrada.



Calculando el PageRank


El pageRank de una pagina X es establecer un procedimiento para determinar la probabilidad de que un usuario llegue por casualidad a dicha página X . Dicha "probabilidad" crece en función como ya dijimos en los enlaces que nos llevan a ella.

Si partimos de que un usuario tiene abierta una página. Dicho usuario generalmente hablando tiene 2 posibilidades.


1.- Elegir al azar uno de los vínculos de salida que se encuentran contenidos en dicha página T.

2.- Cerrar o minimizar dicha página T , y posterior abrir otra ventana y escribir una dirección al azar.


Por lo general es mas probable que el usuario siga los enlaces de la página T. Curiosamente existe un parámetro estadístico de dicha acción, el cual es de 0.85 ( 85% ). Esta probabilidad la representar con la letra d y la probabilidad de que ejecute la segunda opción , por lógica es de 0.15 ( %15 ).



La probabilidad de elegir uno de los vínculos salientes entre los que figuran en dicha página T se distribuye uniformemente entre la cantidad que se encuentren en dicha página.


Nota : Google es uno de los pocos motores de búsqueda que recorre la red frecuentemente, con el objetivo de mantener actualizada la base de datos. Actualmente tiene indexada mas de 4200 millones de páginas. Al buscador le lleva aproximadamente una semana en cubrir la red y precisa otra para calcular el PageRank.




A continuación vamos a analizar ese 15% de casos en las cual el usuario digita la dirección. La probabilidad de que el usuario llegue a la página T es de uno sobre el total de páginas web ( N ), es decir, un uno sobre 4200 millones por 0.15 ( 1-d ). Sin ninguna otra páginas tiene vínculo con la página T, entonces el PageRank de dicha páginas es :


En el caso de las páginas que sí llegan vínculos, la probabilidad de llegar a dichas páginas es la dicha anteriormente mas la suma de la probabilidad que le agrega cada una de las páginas que tienen vínculos hacia ellas. Este aporte está muy relacionado con el PageRank de cada página, que determina la probabilidad inicial de que el navegante parta de ella.




Es mas probable que alguien llege a la pagina ( T ) si tiene un enlace en un portal muy concurrido, el cual lo contrario seria que tuviera un enlace en un blog personal de un personaje desconocido. Es importante tener en cuenta que el PageRank de las páginas de origen debe dividirse entre la cantidad de vínculos que tiene dicha página ( C ), porque eso determina la probabilidad de que quien está en la página elija ir a la página ( T ) y no a otro de esos vínculos. Ademas, recordemos, que esta cifra debemos que multiplicarla por ( d ), porque pondera la probabilidad de que quien esté en la página no elija ninguno de los enlaces que tiene ante su vista.




Si en la página ( T ) hay un enlace hacia una otra página ( T1 ), el PageRank de dicha página sera :


El primero término es la probabilidad de que llegue escribiendo la dirección y el segundo, de que llegue a través del enlace. La suma es seria su PageRank total :


Si llegan enlaces de dos páginas sera : 


Aplicando un poco de matemática básica (simplificación) :


De forma general se podría expresar de la siguiente forma :


Done T1,T2....Tn representan todas las páginas que tienen un enlace hacia la página ( T ). Esta es la fórmula que utiliza nuestro gran y querido amigo Google.


Un pequeño ejemplo : 


Tenemos 5 páginas web e indicamos con una flecha los vínculos. Por ejemplo, de la página 1 salen dos vínculos a las páginas 3 y 5, y entra a ella un vínculo de la páginas 2.


A continuación vamos a hacer uso de las fórmulas ya presentadas. En este caso llamaremos PR (1) al PageRank de la página 1 :


Nota : Hay que tener presente que el nodo 5 realiza un bucle, con eso nos referimos a que la página 5 se enlaza consigo misma. 

Después de hacer los cálculos iterativamente, vamos a dar el valor de d = 0,.85 (Como anteriormente se dijo), se puede llegar a los siguientes valores aproximados.


Como podemos observar en la imagen, nos damos cuenta que la página 5 es la que tiene mejor clasificación en comparación que las otras. Con esto demostramos la correcta concordancia del gráfico con las probabilidades de clasificación.



Bueno creo que eso es todo hasta el momento. Espero que este pequeño post les sea de utilidad y también espero que haya resuelto algunas de sus dudas que tenían acerca del buscador Google.

Bueno me despido y será hasta la próxima.....Nos vemos.










No hay comentarios:

Publicar un comentario