Tras diversos avatares he decidido liberar todos mis derechos sobre este libro que elaboré hacia el año 2004 y hacerla pública a través de esta web. El objeto de la misma, en una primera instancia, no es otro que presentar parte del material que recopilé para la realización de mi tesis doctoral en un formato más dinámico e interactivo que habilitar el acceso al documento en PDF. Con el tiempo espero ir actualizando e incorporando nuevos contenidos a esta publicación, de manera que la misma llegue a convertirse en un material de referencia válido para todos los estudiantes en este campo.
En esta versión preliminar, esta publicación constará de Prólogo, los tres capítulos principales (los casos prácticos se refundirán en el nuevo texto) y la Bibliografía. No me cierro la posibilidad de actualizar este manual e incorporar un nuevo capítulo más centrado en la Web, pero mientras robo tiempo del algún sitio para ello, creo que puede ser un buen momento para liberarlo.
Versión en PDF (publicada en el repositorio Digitum de la Universidad de Murcia).
Otros libros sobre Recuperación de Información
Versión HTML.
Tabla de Contenidos:
Si considerásemos la capacidad del ser humano para almacenar información en su cerebro, nos daríamos cuenta de hasta que extremos resulta ridículo construir dispositivos artificiales para el almacenamiento de esa información. Claro está que esta reflexión encierra su propia paradoja, ya que a pesar de la gigantesca capacidad de nuestro cerebro, se trata a su vez de un órgano en extremo complejo del que en estos albores del siglo XXI comenzamos apenas a comprender su funcionamiento. Por otro lado, las computadoras son simples máquinas -por complejas que nos parezcan- y acarrean un proceso, sino inverso estrictamente hablando, contrario; de la simplicidad, casi infantil en los inicios de su aparición a la actualidad y de ahora en adelante con el desarrollo de la nanotecnología, hasta alcanzar un régimen de complejidad en estos momento difícil de adivinar -hoy ya, señalan los constructores de computadores, resulta casi imposible seguir un error dentro de la lógica de un microprocesador-.
Con este panorama, ¿de qué disponemos realmente?, pues de un cerebro al que no podemos explotar más allá de un pequeño porcentaje de sus posibilidades -desconocemos las estructura del sistema operativo que lo rige- y de máquinas que no resuelven más que un pequeño porcentaje de nuestras necesidades. Con estas perspectivas tenemos que abordar el almacenamiento de datos en las computadoras, ocioso resulta señalar que el objeto de este almacenamiento es el poder encontrar eso datos cuando a cualquier persona le surja una necesidad que pueda ser cubierta con uno o un conjunto de esos datos previamente almacenados.
El desarrollo de las bases de datos, en un principio, pareció la solución a todos nuestros problemas gracias a su capacidad ilimitada de almacenar datos y sus fáciles mecanismos de extracción. Y, ¿cuál es la causa de que estas bases de datos no resolviesen el problema?, si bien si han resuelto algunos. Todo responde a una cuestión crucial de reduccionismo del problema, considerar que una parte de la realidad circundante se puede reducir a una ristra de caracteres sintácticamente simples y sin ninguna ambigüedad semántica, es querer estar alejado de esa realidad.
Por todo ello, se inició el desarrollo de sistemas algo más complejos, pero aun ciertamente alejados de la solución del problema, con el fin de ir acercándose a una meta más consecuente con las necesidades de los seres humanos. Estos sistemas son los conocidos como Sistemas de Recuperación de Información. Desde su creación se ha sido consciente de esa distancia entre realidad y solución propuesta entre necesidad y respuesta, de ahí que desde sus inicios se idearan de forma paralela mecanismos para medir esa distancia: los métodos de evaluación de los sistemas de recuperación de información.
En el momento actual existe un ingenio: la Web, sistema con una dinámica de funcionamiento y estructura para la cual muchas de las cosas desarrolladas con anterioridad están resultando estériles, entre otras las medidas de evaluación de su comportamiento. Es por eso que los investigadores de todo el mundo se encuentran en plena efervescencia creativa presentando nuevas orientaciones, añadiendo, en definitiva, más complejidad al problema de reducir la distancia, de aproximar las necesidades de los usuarios -que emergen de la mente- con la respuesta de los ingenios artificiales.
Pues bien, el presente trabajo fruto de una dilatada investigación avalada por no una menos dilatada experiencia del autor, enfatiza en todos estos elementos de una forma clara y eficaz, y con un estilo sencillo pero completo. No podemos presumir, por desgracia, de abundancia de textos en español sobre el tema, pero es que, además, sobre las medidas de evaluación ni siquiera era fácil encontrar hasta ahora una monografía más o menos dedicada a este tema. Es por ello que se trata de un texto oportuno y necesario para tener conciencia real de la actual problemática de los sistemas de recuperación de información: son ingenios inacabados.
Marzo de 2004
Dr. José Vicente Rodríguez Muñoz
Facultad de Comunicación y Documentación
Universidad de Murcia
Este capítulo representa una presentación del concepto de recuperación de información, y del conjunto de diferencias que posee con otras aplicaciones de la Informática en lo relacionado con la gestión y recuperación de datos. Al mismo tiempo se exponen los distintos modelos sobre los que se basan los sistemas que permiten la recuperación de información.
Si bien no es algo infrecuente, resulta cuando menos curioso que un concepto tan empleado como el de recuperación de información presente una cierta problemática a la hora de establecer una definición que lo sitúe adecuadamente dentro del campo de las Ciencias de la Información, a causa de las distintas y divergentes perspectivas con las que este concepto ha sido analizado a lo largo del tiempo.
Es ‘Keith’ Rijsbergen el autor que mejor expone este problema: “se trata de un término que suele ser definido en un sentido muy amplio” (Rijsbergen, 1979). Ha sido, en realidad, el profuso uso de este término, al igual que ocurre en otras disciplinas con otros vocablos que podrían parecer básicos, lo que ha propiciado que no se encuentre bien utilizado en muchas ocasiones, siendo el fallo más común presentarlo como sinónimo de la recuperación de datos llevada a cabo desde la perspectiva de las base de datos. En otros casos, encontramos autores que expresan las diferencias que, a su juicio, presentan ambos conceptos, con lo cual la definición de recuperación de información queda, en cierto modo, supeditada a la de recuperación de datos (se define a partir de diferencias más que aportar algo nuevo y característico). También disponemos de definiciones muy genéricas, elaboradas de manera superficial y sin entrar en mayores consideraciones sobre estas diferencias. Finalmente, llama la atención que algunos autores pasa de largo sobre este problema, obviando este debate y profundizando más en la explicación de los sistemas de recuperación de información (SRI en adelante).
El primer grupo de definiciones se encuentra claramente influenciado por la tecnología informática, cuya evolución ha llevado a considerar sinónimos ambos conceptos, olvidando que se puede recuperar información sin recurrir a procedimientos informáticos (aunque evidentemente no es lo más común hoy en día) aunque evidentemente, el frecuente y necesario empleo de una tecnología no debe sustituir el adecuado uso de los conceptos terminológicos.
Un claro ejemplo de este desacierto es el Glosario de la Asociación de Bibliotecarios Americanos que define el término “information retrieval” como recuperación de la información en primera acepción y como recuperación de datos en una segunda acepción (ALA, 1983), considerando ambos términos sinónimos en lengua inglesa . Igualmente, el Diccionario Mac Millan de Tecnología de la Información presenta la recuperación de información como “el conjunto de técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios” (Longley, 1989).
Un segundo grupo de autores establecen diferencias entre ambos conceptos. Meadow (1992) afirma que la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”, estableciendo implícitamente una asociación entre la recuperación de información y el concepto de selectividad en el cual la información específica ha de extraerse siguiendo algún tipo de criterio discriminatorio (selectivo por tanto). Pérez-Carballo y Strzalkowski (2000) redundan en esta tesis: “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada y ordenarlos de acuerdo con su relevancia”. Igualmente, Grossman y Frieder indican que recuperar información es “encontrar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits” (Grossman, 1998). Meadow considera que no es lo mismo la recuperación de información entendida como traducción del término inglés information recovery que cuando se traduce el término information retrieval, ya que “en el primer caso no es necesario proceso de selección alguno” (Meadow, 1992).
El autor que más extensamente se dedica a presentar estas diferencias es Blair (1990) quien utiliza como criterios distintivos:
Tramullas Saz resalta especialmente un aspecto de las reflexiones de Blair: la importancia (en muchas ocasiones ignorada) que tiene el factor de predicción por parte del usuario. No debemos olvidar que el usuario ha de intuir, en numerosas ocasiones, los términos utilizados para epresentar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio “es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información” (Tramullas Saz, 1997) y además no se presenta en el campo de la recuperación de datos.
Rijsbergen compendia en la siguiente tabla las diferencias fundamentales existentes entre recuperación de datos y recuperación de información:
|
|
Recuperación de datos |
Recuperación de información |
|
Acierto |
Exacto |
Parcial, el mejor |
|
Inferencia |
Algebraica |
Inductiva |
|
Modelo |
Determinístico |
Posibilístico |
|
Lenguaje de consulta |
Fuertemente Estructurado |
Estructurado o Natural |
|
Especificación consulta |
Precisa |
Imprecisa |
|
Error en la respuesta |
Sensible |
Insensible |
Tabla 1.1 Recuperación de datos vs Recuperación de Información. Fuente: Rijsbergen, C.J. Information Retrieval.
Baeza-Yates plantea las diferencias entre ambos tipos de recuperación con argumentos quizá algo menos abstractos que los empleados por otros autores, incidiendo en que “los datos se pueden estructurar en tablas, árboles, etc. para recuperar exactamente lo que se quiere, el texto no posee una estructura clara y no resulta fácil crearla” (Baeza-Yates, 1999). Para este autor, el problema de la recuperación de información se define de la siguiente manera: “dada una necesidad de información consulta + perfil del usuario + ... ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia”.
En la solución de este problema se identifican dos grandes etapas:
Baeza-Yates se preocupa especialmente de las estructuras de datos y métodos de acceso a los mismos siendo este autor una verdadera referencia en esta materia . Curiosamente, a la hora de definir la recuperación de información, en lugar de proponer una definición propia, emplea la elaborada por Salton: “la recuperación de la información tiene que ver con la representación, almacenamiento, organización y acceso a los ítem de información” (Salton & McGill, 1983). En principio, no deben existir limitaciones a la naturaleza del objeto informativo. Baeza-Yates incorpora la reflexión siguiente: “la representación y organización debería proveer al usuario un fácil acceso a la información en la que se encuentre interesado. Desafortunadamente, la caracterización de la necesidad informativa de un usuario no es un problema sencillo de resolver” (Baeza-Yates, 1999).
El tercer grupo de autores emplea la definición de Salton (base de la mayoría de definiciones de a bibliografía especializada), añadiendo como rasgo diferenciador común que estos autores no profundizan en escrutar las diferencias entre “recuperación de datos” y “recuperación de información”, bien por no ser objeto de sus trabajos o bien por considerarlas suficientemente establecidas en trabajos previos. Feather y Storges ven a la recuperación de información como “el conjunto de actividades necesarias para hacer disponible la información a una comunidad de usuarios” (IEI, 1997). Croft concibe la recuperación de información como “el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc.” (Croft, 1987). Tramullas Saz impregna su definición del aspecto selectivo de Blair comentado anteriormente, afirmando que “el planteamiento de la recuperación de información en su moderno concepto y discusión, hay que buscarlo en la realización de los tests de Cranfield y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada” (Tramullas Saz, 1997).
El cuarto y último grupo de autores se distinguen básicamente porque eluden definir la recuperación de la información. Tienen como máximo exponente a Chowdhury, quien simplemente dedica el primer párrafo de su libro ‘Introduction to modern information retrieval’ a señalar que “el término recuperación de la información fue acuñado en 1952 y fue ganando popularidad en la comunidad científica de 1961 en adelante ”, mostrando después los propósitos, funciones y componentes de los SRI (Chowdhury, 1999). Otro autor de esta corriente es Korfhag e, quien se centra en el almacenamiento y recuperación de la información, considerando a estos procesos como las dos caras de una moneda. Para este autor, “un usuario de un sistema de información lo utiliza de dos formas posibles: para almacenar información en anticipación de una futura necesidad, y para encontrar información en respuesta una necesidad” (Korfhage, 1997).
Tomando como base de partida la definición propuesta por Salton y uniéndole las aportaciones de Rijsbergen, sería el momento (siguiendo la opinión de Baeza-Yates), de elegir el mejor modelo para el diseño de un SRI, aunque para ello creemos totalmente necesario definir de forma previa y adecuada qué se entiende por “sistema de recuperación de información”.
Las notorias similitudes existentes entre la recuperación de información y otras áreas vinculadas al procesamiento y manejo de la información, se repiten en el campo de los sistemas encargados de llevar a cabo esta tarea. Para Salton “la recuperación de información se entiende mejor cuando uno recuerda que la información procesada son documentos”, con el fin de diferenciar a los sistemas encargados de su gestión de otro tipo de sistemas, como los gestores de bases de datos relacionales. Salton piensa que “cualquier SRI puede ser descrito como un conjunto de ítems de información (DOCS), un conjunto de peticiones (REQS) y algún mecanismo (SIMILAR) que determine qué ítem satisfacen las necesidades de información expresadas por el usuario en la petición” (Salton & McGill, 1983)

Ilustración 1 Esquema simple de un SRI. Fuente Salton , G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.
Es el mismo Salton quien reconoce que, una vez llevado a la práctica cotidiana, este esquema resulta muy simple y precisa de ampliación, "porque los documentos suelen convertirse inicialmente a un formato especial, por medio del uso de una clasificación o de un sistema de indización, que denominaremos LANG” (Salton & McGill, 1983)

Ilustración 2 Esquema avanzado de un SRI. Fuente Salton , G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.
En la anterior ilustración se observa que el proceso establecido entre la entrada REQS y SIMILAR es la formulación de la búsqueda y el establecido entre SIMILAR y el conjunto de documentos DOCS es la recuperación. SIMILAR es el proceso de determinación de la similitud existente entre la representación de la pregunta y la representación de los ítems de información. Independientemente de la posible complejidad que pueda llegar a tener este proceso, la definición de Salton no puede ser más sencilla e intuitiva, pudiendo incluso llegar a considerarse sublime.
Chowdhury (1999) identifica el siguiente conjunto de funciones principales en un SRI:
Una visión funcional más completa de los SRI nos la proporcionan Ribeiro-Neto y Baeza-Yates en la siguiente figura, donde se ilustra la actividad asociada con un SRI típico basado en el Modelo Booleano:

Si se estudia el proceso reflejado en la ilustración anterior desde el extremo superior (desde el punto de vista del documento que se introduce en un SRI), van a ocurrir los siguientes procesos para cada documento nuevo que entra:
Cuando el usuario lleva a cabo una operación de recuperación de información, acaecerán los siguientes procesos:
Una vez localizados los distintos subconjuntos de documentos asociados a los términos clave, se llevan a cabo las operaciones booleanas pertinentes, que han sido introducidas por el usuario en la ecuación de búsqueda. Posteriormente los documentos pueden alinearse para su presentación según un ranking determinado.
Otra vista lógica de la entrada de los documentos a los SRI nos la ofrecen también
Ribeiro-Neto y Baeza-Yates.

En esta nueva vista podemos observar que se contempla un nuevo proceso posterior al de "corte" o extracción de las raíces de las palabras, como es el de la Indización (manual o automática), con esta operación, destinada a captar y representar el contenido de los documentos se persigue eliminar la presencia de términos ambiguos en los índices de las bases de datos, contribuyendo a la eficacia de su operatoria y a mejorar su consistencia.
Son varios los autores que presentan la evolución de estos sistemas, pero quien mejor simplifica este progreso es Baeza-Yates, destacando tres fases fundamentales:
Lesk lleva a cabo una curiosa presentación de la evolución de la recuperación de la información considerándola como un ser humano que va atravesando diversos períodos de su existencia :
Los sistemas de recuperación de la información han evolucionado con el fin de adaptarse a este nuevo entorno, habiéndose llegado a desarrollar algunos de los sistemas más innovadores, al mismo tiempo que extensos, por no hablar de su popularidad, si bien aún no disponemos de metodologías suficientemente consolidadas que evalúen su efectividad. Esta evolución no es un proceso finalizado, sino más bien un proceso en realización, que lleva al establecimiento de nuevos términos, tales como WIS (‘web information systems’ o “sistemas de información basados en la tecnología web) destinados a integrarse plenamente con otros sistemas convencionales, llegando a ser más extendidos y de mayor influencia tanto en negocios como en la vida familiar” (Wan, 2001).
El diseño de un SRI se realiza bajo un modelo, donde queda definido “cómo se obtienen las representaciones de los documentos y de la consulta, la estrategia para evaluar la relevancia de un documento respecto a una consulta y los métodos para establecer la importancia (orden) de los documentos de salida” (Villena Román, 1997). Existen varias propuestas de clasificación de modelos, una de las síntesis más completas la realiza Dominich en cinco grupos (Dominich, 2000):
| Modelo | Descripción |
| Clásicos | Este grupo incluye los tres más comunes: Lógico o Booleano, Probabilístico y del Espacio Vectorial. |
| Alternativos | Estos modelos están basados en la Lógica Fuzzy. |
| Lógicos | Están basados en la Lógica Formal y la recuperación de información se lleva a cabo por medio de un proceso inferencial. |
| Basados en la interactividad | Incluyen posibilidades de expansión del alcance de la búsqueda y emplean la retroalimentación por relevancia de los documentos recuperados. |
| Basados en la Inteligencia Artificial | Bases de conocimiento, redes neuronales, algoritmos genéticos y procesamiento del Lenguaje Natural. |
Tabla II Clasificación de los Modelos de Recuperación de Información según Dominich. Fuente: Dominich, S. 2000.
Baeza-Yates clasifica los modelos de recuperación de información con base en la tarea inicial que realiza el usuario en el sistema: (1) recuperar información por medio de una ecuación de búsqueda (retrieval) que se inserta en un formulario destinado a ello, o (2) dedicar un tiempo a consultar (browse) los documentos en la búsqueda de referencias (Baeza-Yates, 1999), dando entrada en su clasificación al hipertexto [CON, 1988] [NIE, 1990], modelo en el cual se basa la web [BER, 1992].
Este mismo autor divide a los modelos basados en la recuperación en dos grupos: clásicos y estructurados. En el primero de ellos incluye a los modelos booleano, espacio vectorial y probabilístico. Posteriormente, presenta una serie de paradigmas alternativos a cada modelo: teoría de conjuntos (conjuntos difusos y booleano extendido), algebraicos (vector generalizado, indización por semántica latente y redes neuronales), y por último, probabilísticos (redes de inferencia y redes de conocimiento); los modelos estructurados corresponden a listas de términos sin solapamiento y a nodos próximos (son modelos escasamente difundidos). Los modelos basados en la navegación entre páginas web son de tres tipos: estructura plana, estructura guiada e hipertexto.
El primero es una simple lectura de un documento aislado del contexto, el segundo incorpora la posibilidad de facilitar la exploración organizando los documentos en una estructura tipo directorio con jerarquía de clases y subclases y el tercero se basa en la idea de un sistema de información que de la posibilidad de adquirir información de forma no estrictamente secuencial sino a través de nodos y enlaces (Baeza-Yates, 1999). Es también Baeza-Yates quien proporciona una clasificación adicional de estos modelos de recuperación de información, realizada en función de la modalidad de consulta y de la vista lógica de los documentos:
|
Vista lógica de los documentos. |
|||
| Modalidad RI | Términos Índice | Texto Completo | Texto Completo y Estructura |
| Recuperación | Clásicos (booleano, probabilísticos y espacio vectorial).
Conjuntos teóricos (extensión del booleano) Algebraicos (extensión del espacio vectorial) Probabilísticos (extensión de los probabilísticos) |
Clásicos (booleano, probabilísticos y espacio vectorial).
Conjuntos teóricos (extensión del booleano) Algebraicos (extensión del espacio vectorial) Probabilísticos (extensión de los probabilísticos) |
Estructurados |
| Navegación | Estructura plana | Estructura plana
Hipertexto |
Estructura guiada
Hipertexto |
Tabla III Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. Fuente: Baeza-Yates, R. (1999).
Tanto Baeza-Yates (Baeza-Yates, 1999) como Villena Román (Villena Román, 1997) llevan a cabo una presentación detallada de cada uno de los modelos, siendo también interesante la lectura de Grossman y Frieder [GRO, 1998], para conocer las alternativas a los modelos clásicos.
Este modelo es el más popular y conocido de los SRI. Concibe a la base de datos como un inmenso conjunto de documentos y cada búsqueda como un subconjunto de documentos. Emplea el criterio simple de relevancia binaria: un documento es relevante o no lo es, sin término medio y un documento es relevante sólo cuando contiene la palabra solicitada.
Este modelo no discrimina entre documentos más o menos relevantes. Da igual que un documento contenga una vez la palabra solicitada o que la contenga treinta veces (es decir, no considera los pesos de las palabras en los documentos). En una operación de búsqueda en la que se emplea el operador de la Unión no discrimina si se satisface una o varias cláusulas OR. En una operación AND no acepta que se cumplan casi todas las cláusulas (acierto parcial).
El lenguaje natural presenta a veces muchas discrepancias con el lenguaje booleano, especialmente cuando se trata de usuarios no especializados. Es frecuente encontrarnos con ecuaciones de búsqueda donde los usuarios de un SRI que tienen la siguiente necesidad de información "me interesa información sobre la Región de Murcia, su geografía, su gastronomía y su pluviometría", transcriben: REGION AND MURCIA AND GEOGRAFIA AND GASTRONOMIA AND PLUVIOMETRÍA cuando realmente lo que quieren localizar debería escribirse (REGION AND MURCIA) AND (GEOGRAFIA OR GASTRONOMIA OR PLUVIOMETRIA)
Este tipo de error es menos frecuente en el caso de los usuarios más especializados, para quienes este sistema puede llegar a ser efectivo, a pesar de los problemas de relevancia.
Además del operador AND (intersección, el operador más inmediato y sin duda el más utilizado) se suele disponer del operador OR (unión) y NOT (exclusión de un subconjunto de documentos de otro).

Fuente: Tolosa, G. y Bordigan, F. http://ferbor.blogspot.com/2006/11/modelos-de-recuperacin-de-informacin.html

G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620.
Vamos a prestar un poco más de atención a este modelo, el más utilizado en la actualidad en los SRI (especialmente en la web). Este modelo entiende que los documentos pueden expresarse en función de unos vectores que recogen la frecuencia de aparición de los términos en los documentos. Los términos que forman esa matriz serían términos no vacíos, es decir, dotados de algún significado a la hora de recuperar información y por otro lado, estarían almacenados en formato “stemmed” (reducidos los términos a una raíz común, tras un procedimiento de aislamiento de la base que agruparía en una misma entrada varios términos).
Un documento se modeliza como un vector (o fila de una matriz de términos y documentos) en el que se indican las apariciones de cada término de la base de datos en ese documento. Normalmente se trabajan con pesos, que representan las importancias de los términos en el documento y en la colección. Si un término aparece mucho en un documento, se supone que es importante en ese documento aunque si aparece en muchos documentos, ese término no es útil para distinguir ningún documento del resto de la colección. Lo que se intenta en este modelo es medir cuánto ayuda un término a distinguir un documento de los demás.

La recuperación de información se lleva a cabo calculando la similitud existente entre la ecuación de búsqueda (que también se transforma en un vector) y los documentos de la base de datos que tengan los términos expresados en la ecuación de búsqueda y ordenados de mayor a menor valor de similitud.
Si disponemos de un SRI con los siguientes cuatro documentos:
|
D1: el río Danubio pasa por Viena, su color es azul D2: el caudal de un río asciende en Invierno D3: el río Rhin y el río Danubio tienen mucho caudal D4: si un río es navegable, es porque tiene mucho caudal |
Su matriz correspondiente dentro del modelo del Espacio Vectorial podría ser la siguiente (decimos "podría" porque hemos eliminado según nuestro parecer algunas palabras vacías tipo "el" o "por"; si se eliminaran otras palabras se dispondría de una matriz diferente):
| río | Danubio | Viena | color | azul | caudal | invierno | Rhin | navegable | |
| D1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
| D2 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 |
| D3 | 2 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 0 |
| D4 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
Por medio de un proceso denominado stemming, quizá el SRI hubiera truncado algunas de las entradas para reducirlas a un formato de raíz común, pero para continuar con la explicación resulta más sencillo e ilustrativo dejar los términos en su formato normal. En cuanto a las palabras vacías, hemos supuesto que el SRI elimina los determinantes, preposiciones y verbos (“el”, “pasa”, “por”, etc. ), presentes en los distintos documentos.
Para entregar la respuesta a una determinada pregunta se realizan una serie de operaciones. La primera es traducir la pregunta al formato de un vector de términos. Así, si la pregunta fuera “¿cuál es el caudal del río Danubio?”, su vector de términos sería Q = (1,1,0,0,0,1,0,0,0). El siguiente paso es calcular la similitud existente entre el vector pregunta y los vectores de los documentos (existen varias funciones matemáticas diseñadas para ello) y ordenar la respuesta en función de los resultados de similitud obtenidos.
Este procedimiento simple ha sido ligeramente modificado cuando se comenzó a considerar que la tf (la frecuencia absoluta de aparición de un término en un documento), es un factor que precisa de una corrección, porque la importancia de un término en función de su distribución puede llegar a ser desmesurada (por ejemplo, una frecuencia de 2 es 200% más importante que una frecuencia de 1, y la diferencia aritmética es sólo de una unidad).
Sparck-Jones y otros autores apreciaron la capacidad de discriminación de un término frente a otro. Esta importancia o generalidad de un término dentro de la colección ha de ser vista en su conjunto no en un único documento, y se pensó en incentivar la presencia de aquellos términos que aparecen en menos documentos frente a los que aparecen en todos o casi todos, ya que realmente los muy frecuentes discriminan poco o nada a la hora de la representación del contenido de un documento. Para medir este valor de discriminación se propone la medida idf (frecuencia inversa de documento).
Así, para la construcción de la matriz de términos y documentos, se consideran las siguientes definiciones:
El vector para cada documento tiene n componentes y contiene una entrada para cada término distinto en la colección entera de documentos. Los componentes en el vector se fijan con los pesos calculados para cada término en la colección de documentos. A los términos en cada documento automáticamente se le asignan pesos basándose en la frecuencia con que ocurren en la colección entera de documentos y en la aparición de un término en un documento particular.
El peso de un término en un documento aumenta si este aparece más a menudo en un documento y disminuye si aparece más a menudo en todos los demás documentos. El peso para un término en un vector de documento es distinto de cero sólo si el término aparece en el documento. Para una colección de documentos grande que consiste en numerosos documentos pequeños, es probable que los vectores de los documentos contengan ceros principalmente. Por ejemplo, una colección de documentos con 10000 términos distintos genera un vector 10000-dimensional para cada documento. Un documento dado que tenga sólo 100 términos distintos tendrá un vector de documento que contendrá 9900 ceros en sus componentes.
El cálculo del factor de peso (d) para un término en un documento se define como combinación de la frecuencia de término (tf), y la frecuencia inversa del documento (idf). Para calcular el valor de la j-esima entrada del vector que corresponde al documento i, se emplea la ecuación siguiente: dij=tfij x idfj. El cálculo de las frecuencias inversas de los términos en los documentos y la posterior aplicación de esta fórmula sobre la matriz de nuestro ejemplo, proporcionaría la siguiente matriz de pesos (a la que añadimos una fila con el vector pregunta).
Cálculo de frecuencias inversas
Idf (río) = Log (4/4) = log (1) = 0
Idf (Danubio) = Log (4/2) = log 2 = 0.301
Idf (Viena) = Log (4/1) = log 4 = 0.602
Idf (color) = Log (4/1) = log 4 = 0.602
Idf (azul) = Log (4/1) = log 4 = 0.602
Idf (caudal) = Log (4/3) = log 1.33 = 0.124
Idf (invierno) = Log (4/1) = log 4 = 0.602
Idf (Rhin) = Log (4/1) = log 4 = 0.602
Idf (navegable) = Log (4/1) = log 4 = 0.602
Matriz tf-idf
| río | Danubio | Viena | color | azul | caudal | invierno | Rhin | navegable | |
| D1 | 0 | 0.301 | 0.602 | 0.602 | 0.602 | 0 | 0 | 0 | 0 |
| D2 | 0 | 0 | 0 | 0 | 0 | 0.124 | 0.602 | 0 | 0 |
| D3 | 0 | 0.301 | 0 | 0 | 0 | 0.124 | 0 | 0.602 | 0 |
| D4 | 0 | 0 | 0 | 0 | 0 | 0.124 | 0 | 0 | 0.602 |
Ahora corresponde calcular las similitudes existentes entre los distintos documentos (D1, D2, D3 y D4) y el vector Q de la pregunta. Hay que multiplicar componente a componente de los vectores y sumar los resultados. El modo más sencillo de obtener la similitud es por medio del producto escalar de los vectores (es decir, multiplicando los componentes de cada vector y sumando los resultados).
Cálculo de similitudes:
Sim (D1,Q) = 0*0 + 0.301*0.301 + 0.602*0 + 0.602*0 + 0.602*0 + 0*0.124+ 0*0 + 0*0 +0*0 = 0.09
Sim (D2,Q) = 0*0 + 0*0.301 + 0*0 + 0*0 + 0*0 + 0.124*0.124 + 0.602*0 + 0*0 + 0*0 = 0.01
Sim (D3,Q) = 0*0 + 0.301*0.301 + 0*0 + 0*0 + 0*0 + 0.124*0.124 + 0*0 + 0.602*0 + 0*0 = 0.10
Sim (D4,Q) = 0*0 + 0*0.301 + 0*0 + 0*0 + 0*0 + 0.124*0.124 + 0*0 + 0*0 + 0.602*0 = 0.01
Con estos valores de similitud, se obtiene la siguiente respuesta: {D3, D2, D1, D4}. Podemos observar en este ejercicio un ejemplo de acierto y un ejemplo de fallo de este modelo, ya que el primero de los documentos recuperados sí responde a la pregunta (D3) y al mismo tiempo los demás no responden adecuadamente (realmente la similitud es muy baja).
Casos como el presente, justifican la presencia de documentos no relevantes en la respuesta de los SRI y que este esquema básico de alineamiento haya sufrido muchos cambios.

Fhur N. (1992), "Probabilistic models in Information Retrieval,"
En este modelo se presupone que existe exactamente un subconjunto de documentos que son relevantes para una consulta dada. Para cada documento se intenta evaluar la probabilidad de que el usuario lo considere relevante. La relevancia de un documento es el resultado de dividir la Probabilidad de que el documento sea relevante para una pregunta entre la Probabilidad de que no lo sea.
Este modelo es poco aceptado porque es necesario poseer una sólida base matemática para su aplicación. Además, se debe comenzar adivinando y posteriormente ir refinando la apuesta inicialmente realizada de forma iterativa.
Este modelo no toma en cuenta la frecuencia de aparición del términos y necesita suponer que todos los términos son independientes unos de otros, situaciones algo alejada de la realidad porque, como bien sabemos, hay términos cuya presencia suele estar muy vinculada (por ejemplo, "red" e "internet" suelen estar muy presentes de forma conjunta).
En esta sección presentaremos todos los documentos que han servido para la elaboración de este libro. Los mismos se presentarán en el formato de cita bibliográfica APA 5th ed. style y en algunos se acompañará la descripción con un breve comentario.
Referencia: American Library Association. Glosario A.L.A. de Bibliotecología y Ciencias de la Información. Madrid: Díaz de Santos, 1983.
Referencia: Blair, D.C. Language and representation in information retrieval. Amsterdam [etc.]: Elsevier Science Publishers, 1990.
Bibliografía del autor:dblp - Computer Sciences Bibliography
Referencia: Rijsbergen, C.J. Information Retrieval. London: Butterworths, 1979. En línea
Comentario:
Referencia: Grossman, D.A. and Frieder, O. Information retrieval: algorithms and heuristics. Boston: Kluwer Academia Publishers, 1998.
Bibliografía: dblp - Computer Science Bibliography.
Referencia: Longley, D. and Shain M. Mac Millan Dictionary of IT. London and Basingstoke: The MacMillan Press, 1989.
Referencia: Meadow, C. T. Text Information retrieval Systems. San Diego: Academic Press, 1993.
Página del autor:http://www3.fis.utoronto.ca/faculty/meadow/
Referencia: Pérez-Carballo, J. and Strzalkowski, T. ‘Natural language information retrieval: progress report’. Information Processing and Management 36, 2000. p. 155-178
Referencia: Tramullas Sáez, J. Introducción a la Documática. Zararagoza: Kronos, 1997.