motores de búsqueda
Griesbaum, J.
The goal of this study was to investigate the retrieval effectiveness of three popular German Web search services. For this purpose the engines Altavista.de, Google.de and Lycos.de were compared with each other in terms of the precision of their top twenty results. The test panelists were based on a collection of fifty randomly selected queries, and relevance assessments were made by independent jurors. Relevance assessments were acquired separately a) for the search results themselves and b) for the result descriptions on the search engine results pages. The basic findings were: 1.) Google reached the best result values. Statistical validation showed that Google performed significantly better than Altavista, but there was no significant difference between Google and Lycos. Lycos also attained better values than Altavista, but again the differences reached no significant value. In terms of top twenty precision, the experiment showed similar outcomes to the preceding retrieval test in 2002. Google, followed by Lycos and then Altavista, still performs best, but the gaps between the engines are closer now. 2.) There are big deviations between the relevance assignments based on the judgement of the results themselves and those based on the judgements of the result descriptions on the search engine results pages.
2004
23-01-2009
Greisdorf, H.
Although relevance has represented a key concept in the field of information science for evaluating information retrieval effectiveness, the broader context established by interdisciplinary frameworks could provide greater depth and breadth to on-going research in the field. This work provides an overview of the nature of relevance in the field of information science with a cursory view of how cross-disciplinary approaches to relevance could represent avenues for further investigation into the evaluative characteristics of relevance as a means for enhanced understanding of human infor-mation behavior.
Informing Science: Special Issue on Information Science Research. Vol 3 No 2
2000
23-01-2009
Grado-Caffaro, M
Es bien sabido que los motores de búsqueda y los índices han surgido como herramienta para ayudar a encontrar información en el enorme y rápidamente creciente volumen de páginas web: su origen se inscribe en el contexto académico, al igual que ocurrió con la propia Red, para pasar posteriormente al escenario comercial.
2000
23-01-2009
He estado investigando un poco sobre la idea del algoritmo ExpertRank, actualmente implantado en el motor ask.com (el cuarto en usuarios en todo el mundo) y he encontrado un ejemplo para ilustrar lo que se entiende por "enlaces en contexto" dentro de un algoritmo que considera los hipervínculos como fuente de información primaria para realizar el alineamiento de la respuesta.
González, A.
A new generation of scrappy search engines is emerging to challenge the dominance of mighty Google. Google became a huge Web favorite because it's simple and it works.
2001
28-12-2008
Delgado Domínguez, A.
Conceptualmente, la Recuperación de Información (RI) es una operación en la que se interpreta una necesidad de información de un usuario y se seleccionan los documentos más relevantes capaces de solucionarla, es decir, consiste en buscar documentos que exhiban un mayor parecido a la pregunta formulada. En el contexto de la WWW, se puede definir el objetivo de la recuperación como la identificación de una o más referencias de páginas web que resulten relevantes para satisfacer una necesidad de información. Se entiende por página web el fichero o conjunto de ficheros informáticos que constituyen un documento HTML (HyperText Markup Language) identificable a través de la red con una URL (Uniform Resource Locator) propia característica. La entidad final buscada puede variar mucho: direcciones, datos estadísticos, archivos de imágenes, referencias bibliográficas, documentos de texto completo, etc.
El crecimiento explosivo de la WWW, unido a la diversidad de información que contiene, su heterogénea procedencia, la diferente formación de los autores de documentos y la anarquía de su organización, dificultan enormemente el hallazgo de información útil para un usuario determinado, más aún cuando es el propio usuario, generalmente con escaso conocimiento en técnicas de RI, quien efectúa sus propias búsquedas. La proliferación de herramientas para buscar información en la Web se ha hecho notar considerablemente en estos últimos años: se estima que en la actualidad existen más de 2000 motores de búsqueda diferentes en la Web, mientras que en 1995 había tan solo una docena. Cada uno de ellos tiene sus propias características, utilidades e interfaces de usuario.
El propósito de este informe es poner de manifiesto las dificultades que entraña la RI en la WWW, analizar su problemática, exponer diferentes soluciones, ver cómo hacen uso de ellas algunas herramientas de búsqueda e indicar hacia donde tienden las investigaciones en esta área.
1998
26-12-2008
Delgado Domínguez, A.
En esta ponencia se presentan las características de la WWW desde una perspectiva documental y se estudian los diferentes tipos de herramientas que podemos utilizar para buscar información.
1998
26-11-2008
Davis, E.
We are a society obsessed with convenience. We go to extreme lengths to invent devices that promise a simpler or more convenient lifestyle. This paradox is exemplified in our fascination with the Internet, as well as with our attempts to index it for access purposes. The Internet is today a rapidly evolving organism that is almost completely lacking in fundamental organization. The question of whether each individual achieves a net gain from all the effort expended in this process lies somewhere beyond the scope of my project, but I think we all can agree on the need to somehow organize this very unstructured information resource.
1996
26-12-2008
Merlino-Santesteban, C.
Se describe y analiza el acceso y la recuperación de información en la World Wide Web. En primer lugar, se estudia el funcionamiento de los motores de búsqueda y los metabuscadores. En segundo lugar, se presenta un estado de situación de la recuperación de información web a través de tríada sistema-documento-usuario. Y por último, se evalúa el desempeño de motores de búsqueda y metabuscadores en dos preexperimentos. El primero, analiza, emulando la conducta del usuario, la ordenación por relevancia de los primeros diez y veinte resultados de cinco motores de búsqueda de mayor cobertura en respuesta a expresiones de búsqueda no estructuras. Y el segundo, calcula las medidas tradicionales de precisión y exhaustividad, determina la proporción de URLs solapados y similitud entre cinco buscadores y tres metabuscadores usando para su interrogación palabras poco frecuentes.
2001
17-12-2008
Brin, S. and Page, L.
In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at http://google.stanford.edu/
To engineer a search engine is a challenging task. Search engines index tens to hundreds of millions of web pages involving a comparable number of distinct terms. They answer tens of millions of queries every day. Despite the importance of large-scale search engines on the web, very little academic research has been done on them. Furthermore, due to rapid advance in technology and web proliferation, creating a web search engine today is very different from three years ago. This paper provides an in-depth description of our large-scale web search engine -- the first such detailed public description we know of to date.
Apart from the problems of scaling traditional search techniques to data of this magnitude, there are new technical challenges involved with using the additional information present in hypertext to produce better search results. This paper addresses this question of how to build a practical large-scale system which can exploit the additional information present in hypertext. Also we look at the problem of how to effectively deal with uncontrolled hypertext collections where anyone can publish anything they want.
1999
15-12-2008

