Recuperación de Información: Modelos, Sistemas y Evaluación.

Tras diversos avatares he decidido liberar todos mis derechos sobre este libro que elaboré hacia el año 2004 y hacerla pública a través de esta web. El objeto de la misma, en una primera instancia, no es otro que presentar parte del material que recopilé para la realización de mi tesis doctoral en un formato más dinámico e interactivo que habilitar el acceso al documento en PDF. Con el tiempo espero ir actualizando e incorporando nuevos contenidos a esta publicación, de manera que la misma llegue a convertirse en un material de referencia válido para todos los estudiantes en este campo.

En esta versión preliminar, esta publicación constará de Prólogo, los tres capítulos principales (los casos prácticos se refundirán en el nuevo texto) y la Bibliografía. No me cierro la posibilidad de actualizar este manual e incorporar un nuevo capítulo más centrado en la Web, pero mientras robo tiempo del algún sitio para ello, creo que puede ser un buen momento para liberarlo.


Versión en PDF (publicada en el repositorio Digitum de la Universidad de Murcia).

Otros libros sobre Recuperación de Información


.

Versión HTML.
Tabla de Contenidos:

  1. Prólogo
  2. La recuperación y los sistemas de recuperación de información.
  3. La recuperación de información en la Web
  4. Evaluación de la recuperación de la información

Prólogo

Si considerásemos la capacidad del ser humano para almacenar información en su cerebro, nos daríamos cuenta de hasta que extremos resulta ridículo construir dispositivos artificiales para el almacenamiento de esa información. Claro está que esta reflexión encierra su propia paradoja, ya que a pesar de la gigantesca capacidad de nuestro cerebro, se trata a su vez de un órgano en extremo complejo del que en estos albores del siglo XXI comenzamos apenas a comprender su funcionamiento. Por otro lado, las computadoras son simples máquinas -por complejas que nos parezcan- y acarrean un proceso, sino inverso estrictamente hablando, contrario; de la simplicidad, casi infantil en los inicios de su aparición a la actualidad y de ahora en adelante con el desarrollo de la nanotecnología, hasta alcanzar un régimen de complejidad en estos momento difícil de adivinar -hoy ya, señalan los constructores de computadores, resulta casi imposible seguir un error dentro de la lógica de un microprocesador-.

Con este panorama, ¿de qué disponemos realmente?, pues de un cerebro al que no podemos explotar más allá de un pequeño porcentaje de sus posibilidades -desconocemos las estructura del sistema operativo que lo rige- y de máquinas que no resuelven más que un pequeño porcentaje de nuestras necesidades. Con estas perspectivas tenemos que abordar el almacenamiento de datos en las computadoras, ocioso resulta señalar que el objeto de este almacenamiento es el poder encontrar eso datos cuando a cualquier persona le surja una necesidad que pueda ser cubierta con uno o un conjunto de esos datos previamente almacenados.

El desarrollo de las bases de datos, en un principio, pareció la solución a todos nuestros problemas gracias a su capacidad ilimitada de almacenar datos y sus fáciles mecanismos de extracción. Y, ¿cuál es la causa de que estas bases de datos no resolviesen el problema?, si bien si han resuelto algunos. Todo responde a una cuestión crucial de reduccionismo del problema, considerar que una parte de la realidad circundante se puede reducir a una ristra de caracteres sintácticamente simples y sin ninguna ambigüedad semántica, es querer estar alejado de esa realidad.
Por todo ello, se inició el desarrollo de sistemas algo más complejos, pero aun ciertamente alejados de la solución del problema, con el fin de ir acercándose a una meta más consecuente con las necesidades de los seres humanos. Estos sistemas son los conocidos como Sistemas de Recuperación de Información. Desde su creación se ha sido consciente de esa distancia entre realidad y solución propuesta entre necesidad y respuesta, de ahí que desde sus inicios se idearan de forma paralela mecanismos para medir esa distancia: los métodos de evaluación de los sistemas de recuperación de información.

En el momento actual existe un ingenio: la Web, sistema con una dinámica de funcionamiento y estructura para la cual muchas de las cosas desarrolladas con anterioridad están resultando estériles, entre otras las medidas de evaluación de su comportamiento. Es por eso que los investigadores de todo el mundo se encuentran en plena efervescencia creativa presentando nuevas orientaciones, añadiendo, en definitiva, más complejidad al problema de reducir la distancia, de aproximar las necesidades de los usuarios -que emergen de la mente- con la respuesta de los ingenios artificiales.

Pues bien, el presente trabajo fruto de una dilatada investigación avalada por no una menos dilatada experiencia del autor, enfatiza en todos estos elementos de una forma clara y eficaz, y con un estilo sencillo pero completo. No podemos presumir, por desgracia, de abundancia de textos en español sobre el tema, pero es que, además, sobre las medidas de evaluación ni siquiera era fácil encontrar hasta ahora una monografía más o menos dedicada a este tema. Es por ello que se trata de un texto oportuno y necesario para tener conciencia real de la actual problemática de los sistemas de recuperación de información: son ingenios inacabados.

Marzo de 2004
Dr. José Vicente Rodríguez Muñoz
Facultad de Comunicación y Documentación
Universidad de Murcia

La recuperación y los sistemas de recuperación de información.

Este capítulo representa una presentación del concepto de recuperación de información, y del conjunto de diferencias que posee con otras aplicaciones de la Informática en lo relacionado con la gestión y recuperación de datos. Al mismo tiempo se exponen los distintos modelos sobre los que se basan los sistemas que permiten la recuperación de información.

Hacia una definición de la Recuperación de Información (I).

Si bien no es algo infrecuente, resulta cuando menos curioso que un concepto tan empleado como el de recuperación de información presente una cierta problemática a la hora de establecer una definición que lo sitúe adecuadamente dentro del campo de las Ciencias de la Información, a causa de las distintas y divergentes perspectivas con las que este concepto ha sido analizado a lo largo del tiempo.

Es ‘Keith’ Rijsbergen el autor que mejor expone este problema: “se trata de un término que suele ser definido en un sentido muy amplio” (Rijsbergen, 1979). Ha sido, en realidad, el profuso uso de este término, al igual que ocurre en otras disciplinas con otros vocablos que podrían parecer básicos, lo que ha propiciado que no se encuentre bien utilizado en muchas ocasiones, siendo el fallo más común presentarlo como sinónimo de la recuperación de datos llevada a cabo desde la perspectiva de las base de datos. En otros casos, encontramos autores que expresan las diferencias que, a su juicio, presentan ambos conceptos, con lo cual la definición de recuperación de información queda, en cierto modo, supeditada a la de recuperación de datos (se define a partir de diferencias más que aportar algo nuevo y característico). También disponemos de definiciones muy genéricas, elaboradas de manera superficial y sin entrar en mayores consideraciones sobre estas diferencias. Finalmente, llama la atención que algunos autores pasa de largo sobre este problema, obviando este debate y profundizando más en la explicación de los sistemas de recuperación de información (SRI en adelante).

Hacia una definición de la Recuperación de Información (II).

El primer grupo de definiciones se encuentra claramente influenciado por la tecnología informática, cuya evolución ha llevado a considerar sinónimos ambos conceptos, olvidando que se puede recuperar información sin recurrir a procedimientos informáticos (aunque evidentemente no es lo más común hoy en día) aunque evidentemente, el frecuente y necesario empleo de una tecnología no debe sustituir el adecuado uso de los conceptos terminológicos.

Un claro ejemplo de este desacierto es el Glosario de la Asociación de Bibliotecarios Americanos que define el término “information retrieval” como recuperación de la información en primera acepción y como recuperación de datos en una segunda acepción (ALA, 1983), considerando ambos términos sinónimos en lengua inglesa . Igualmente, el Diccionario Mac Millan de Tecnología de la Información presenta la recuperación de información como “el conjunto de técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios” (Longley, 1989).

Un segundo grupo de autores establecen diferencias entre ambos conceptos. Meadow (1992) afirma que la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”, estableciendo implícitamente una asociación entre la recuperación de información y el concepto de selectividad en el cual la información específica ha de extraerse siguiendo algún tipo de criterio discriminatorio (selectivo por tanto). Pérez-Carballo y Strzalkowski (2000) redundan en esta tesis: “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada y ordenarlos de acuerdo con su relevancia”. Igualmente, Grossman y Frieder indican que recuperar información es “encontrar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits” (Grossman, 1998). Meadow considera que no es lo mismo la recuperación de información entendida como traducción del término inglés information recovery que cuando se traduce el término information retrieval, ya que “en el primer caso no es necesario proceso de selección alguno” (Meadow, 1992).

El autor que más extensamente se dedica a presentar estas diferencias es Blair (1990) quien utiliza como criterios distintivos:

  • En la recuperación de datos se emplean preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En cambio, en recuperación de información las preguntas resultan difíciles de trasladar a un lenguaje normalizado (aunque existen lenguajes para la recuperación de información, son de naturaleza mucho menos formal que los empleados en los sistemas de bases de datos relacionales, por ejemplo) y la respuesta será un conjunto de documentos que probablemente contendrá lo deseado, con un evidente factor de indeterminación.
  • Según la relación entre el requerimiento al sistema y la satisfacción de usuario, la recuperación de datos es determinista y la recuperación de información es posibilista, debido al nivel de incertidumbre presente en la respuesta.
  • Éxito de la búsqueda. En recuperación de datos el criterio a emplear es la exactitud de lo encontrado, mientras que en recuperación de información, el criterio de valor es el grado en el que la respuesta satisface las necesidades de información del usuario, es decir, su percepción personal de utilidad.
    Tramullas Saz resalta especialmente un aspecto de las reflexiones de Blair: la importancia (en muchas ocasiones ignorada) que tiene el factor de predicción por parte del usuario. No debemos olvidar que el usuario ha de intuir, en numerosas ocasiones, los términos utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio “es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información” (Tramullas Saz, 1997) y además no se presenta en el campo de la recuperación de datos. 

Hacia una definición de la Recuperación de Información (III).

Tramullas Saz resalta especialmente un aspecto de las reflexiones de Blair: la importancia (en muchas ocasiones ignorada) que tiene el factor de predicción por parte del usuario. No debemos olvidar que el usuario ha de intuir, en numerosas ocasiones, los términos utilizados para epresentar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio “es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información” (Tramullas Saz, 1997) y además no se presenta en el campo de la recuperación de datos.

Rijsbergen compendia en la siguiente tabla las diferencias fundamentales existentes entre recuperación de datos y recuperación de información:

 

 

Recuperación de datos

Recuperación de información

Acierto

Exacto

Parcial, el mejor

Inferencia

Algebraica

Inductiva

Modelo

Determinístico

Posibilístico

Lenguaje de consulta

Fuertemente Estructurado

Estructurado o Natural

Especificación consulta

Precisa

Imprecisa

Error en la respuesta

Sensible

Insensible

Tabla 1.1 Recuperación de datos vs Recuperación de Información. Fuente: Rijsbergen, C.J. Information Retrieval.

Hacia una definición de la Recuperación de Información (IV).

Baeza-Yates plantea las diferencias entre ambos tipos de recuperación con argumentos quizá algo menos abstractos que los empleados por otros autores, incidiendo en que “los datos se pueden estructurar en tablas, árboles, etc. para recuperar exactamente lo que se quiere, el texto no posee una estructura clara y no resulta fácil crearla” (Baeza-Yates, 1999). Para este autor, el problema de la recuperación de información se define de la siguiente manera: “dada una necesidad de información consulta + perfil del usuario + ... ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia”.

En la solución de este problema se identifican dos grandes etapas:

  1. Elección de un modelo que permita calcular la relevancia de un documento
    frente a una consulta.
  2. Diseño de algoritmos y estructuras de datos que implementen este modelo de
    forma eficiente.

Baeza-Yates se preocupa especialmente de las estructuras de datos y métodos de acceso a los mismos siendo este autor una verdadera referencia en esta materia . Curiosamente, a la hora de definir la recuperación de información, en lugar de proponer una definición propia, emplea la elaborada por Salton: “la recuperación de la información tiene que ver con la representación, almacenamiento, organización y acceso a los ítem de información” (Salton & McGill, 1983). En principio, no deben existir limitaciones a la naturaleza del objeto informativo. Baeza-Yates incorpora la reflexión siguiente: “la representación y organización debería proveer al usuario un fácil acceso a la información en la que se encuentre interesado. Desafortunadamente, la caracterización de la necesidad informativa de un usuario no es un problema sencillo de resolver” (Baeza-Yates, 1999).

El tercer grupo de autores emplea la definición de Salton (base de la mayoría de definiciones de a bibliografía especializada), añadiendo como rasgo diferenciador común que estos autores no profundizan en escrutar las diferencias entre “recuperación de datos” y “recuperación de información”, bien por no ser objeto de sus trabajos o bien por considerarlas suficientemente establecidas en trabajos previos. Feather y Storges ven a la recuperación de información como “el conjunto de actividades necesarias para hacer disponible la información a una comunidad de usuarios” (IEI, 1997). Croft concibe la recuperación de información como “el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc.” (Croft, 1987). Tramullas Saz impregna su definición del aspecto selectivo de Blair comentado anteriormente, afirmando que “el planteamiento de la recuperación de información en su moderno concepto y discusión, hay que buscarlo en la realización de los tests de Cranfield y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada” (Tramullas Saz, 1997).

El cuarto y último grupo de autores se distinguen básicamente porque eluden definir la recuperación de la información. Tienen como máximo exponente a Chowdhury, quien simplemente dedica el primer párrafo de su libro ‘Introduction to modern information retrieval’ a señalar que “el término recuperación de la información fue acuñado en 1952 y fue ganando popularidad en la comunidad científica de 1961 en adelante ”, mostrando después los propósitos, funciones y componentes de los SRI (Chowdhury, 1999). Otro autor de esta corriente es Korfhag e, quien se centra en el almacenamiento y recuperación de la información, considerando a estos procesos como las dos caras de una moneda. Para este autor, “un usuario de un sistema de información lo utiliza de dos formas posibles: para almacenar información en anticipación de una futura necesidad, y para encontrar información en respuesta una necesidad” (Korfhage, 1997).

SRI: Los Sistemas de Recuperación de Información. (I)

Tomando como base de partida la definición propuesta por Salton y uniéndole las aportaciones de Rijsbergen, sería el momento (siguiendo la opinión de Baeza-Yates), de elegir el mejor modelo para el diseño de un SRI, aunque para ello creemos totalmente necesario definir de forma previa y adecuada qué se entiende por “sistema de recuperación de información”.

Las notorias similitudes existentes entre la recuperación de información y otras áreas vinculadas al procesamiento y manejo de la información, se repiten en el campo de los sistemas encargados de llevar a cabo esta tarea. Para Salton “la recuperación de información se entiende mejor cuando uno recuerda que la información procesada son documentos”, con el fin de diferenciar a los sistemas encargados de su gestión de otro tipo de sistemas, como los gestores de bases de datos relacionales. Salton piensa que “cualquier SRI puede ser descrito como un conjunto de ítems de información (DOCS), un conjunto de peticiones (REQS) y algún mecanismo (SIMILAR) que determine qué ítem satisfacen las necesidades de información expresadas por el usuario en la petición” (Salton & McGill, 1983)

esquema simple de SRI propuesto por Salton y Mcgill

Ilustración 1 Esquema simple de un SRI. Fuente Salton , G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.

Es el mismo Salton quien reconoce que, una vez llevado a la práctica cotidiana, este esquema resulta muy simple y precisa de ampliación, "porque los documentos suelen convertirse inicialmente a un formato especial, por medio del uso de una clasificación o de un sistema de indización, que denominaremos LANG” (Salton & McGill, 1983)

esquema avanzado de SRI pripuesto por Salton y Mcgill

Ilustración 2 Esquema avanzado de un SRI. Fuente Salton , G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.

En la anterior ilustración se observa que el proceso establecido entre la entrada REQS y SIMILAR es la formulación de la búsqueda y el establecido entre SIMILAR y el conjunto de documentos DOCS es la recuperación. SIMILAR es el proceso de determinación de la similitud existente entre la representación de la pregunta y la representación de los ítems de información. Independientemente de la posible complejidad que pueda llegar a tener este proceso, la definición de Salton no puede ser más sencilla e intuitiva, pudiendo incluso llegar a considerarse sublime.

Chowdhury (1999) identifica el siguiente conjunto de funciones principales en un SRI:

  1. Identificar las fuentes de información relevantes a las áreas de interés de las solicitudes de los usuarios.
  2. Analizar los contenidos de los documentos.
  3. Representar los contenidos de las fuentes analizadas de una manera que sea adecuada para compararlas con las preguntas de los usuarios.
  4. Analizar las preguntas de los usuarios y representarlas de una forma que sea adecuada para compararlas con las representaciones de los documentos de la base de datos.
  5. Realizar la correspondencia entre la representación de la búsqueda y los documentos almacenados en la base de datos.
  6. Recuperar la información relevante.
  7. Realizar los ajustes necesarios en el sistema basados en la
    retroalimentación con los usuarios.

 

SRI: Los Sistemas de Recuperación de Información. (II)

Una visión funcional más completa de los SRI nos la proporcionan Ribeiro-Neto y Baeza-Yates en la siguiente figura, donde se ilustra la actividad asociada con un SRI típico basado en el Modelo Booleano:

vista funcional de un SRI según Baeza-Yates

Si se estudia el proceso reflejado en la ilustración anterior desde el extremo superior (desde el punto de vista del documento que se introduce en un SRI), van a ocurrir los siguientes procesos para cada documento nuevo que entra:

  1. Se identifican las palabras contenidas en el documento
  2. Se excluyen las palabras vacías
  3. Se "cortan" las palabras, es decir, se extraen las raíces de las palabras
  4. Se establece un peso de ponderación para cada raiz
  5. Finalmente las raíces debidamente ponderadas se introducen en la base de datos

Cuando el usuario lleva a cabo una operación de recuperación de información, acaecerán los siguientes procesos:

  1. El usuario en función de sus necesidades y conveniencias lleva a cabo una serie de juicios de relevancia para confeccionar su ecuación de búsqueda, ayudándose de las prestaciones que le proporciona el Interfaz de Búsqueda.
  2. La ecuación de búsqueda, una vez introducida, se descompone en sus partes fundamentales.
  3. Los términos clave empleados en la ecuación de búsqueda son "cortados" para extraer de ellos sus raíces y de esta forma proceder a su localización en la base de datos.

Una vez localizados los distintos subconjuntos de documentos asociados a los términos clave, se llevan a cabo las operaciones booleanas pertinentes, que han sido introducidas por el usuario en la ecuación de búsqueda. Posteriormente los documentos pueden alinearse para su presentación según un ranking determinado.

Otra vista lógica de la entrada de los documentos a los SRI nos la ofrecen también
Ribeiro-Neto y Baeza-Yates.

otra vista funcional de un SRI según Baeza-Yates

En esta nueva vista podemos observar que se contempla un nuevo proceso posterior al de "corte" o extracción de las raíces de las palabras, como es el de la Indización (manual o automática), con esta operación, destinada a captar y representar el contenido de los documentos se persigue eliminar la presencia de términos ambiguos en los índices de las bases de datos, contribuyendo a la eficacia de su operatoria y a mejorar su consistencia.

Evolución de los SRI.

Son varios los autores que presentan la evolución de estos sistemas, pero quien mejor simplifica este progreso es Baeza-Yates, destacando tres fases fundamentales:

  1. Desarrollos iniciales. Nunca debe olvidarse que ya se disponía de métodos de recuperación de información en las antiguas colecciones de papiros. Otro ejemplo clásico, que se ha venido utilizando hasta nuestros días, es la tabla de contenidos de un libro, sustituida por otras estructuras más complejas a medida que ha crecido el volumen de información. La evolución de la tabla de contenidos es el índice, estructura que aún constituye el núcleo de los SRI actuales.
  2. Recuperación de información en las bibliotecas. Fueron las primeras instituciones en adoptar estos sistemas. Originalmente fueron desarrollados por ellas mismas y posteriormente se ha creado un mercado tecnológico altamente especializado en el que participan múltiples empresas e instituciones.
  3. La World Wide Web. La dirección más natural de la evolución de los SRI ha sido hacia la web, entorno donde han encontrado una alta aplicación práctica y un aumento del número de usuarios, especialmente en el campo de los directorios y motores de búsqueda . El alto grado de consolidación de la web está siendo favorecido por el vertiginoso abaratamiento de la tecnología informática, por el espectacular o desarrollo de las telecomunicaciones y por la facilidad de publicación de cualquier documento que un autor considere interesante, sin tener que pasar por el filtro de los tradicionales círculos editoriales (Baeza-Yates, 1999).

Lesk lleva a cabo una curiosa presentación de la evolución de la recuperación de la información considerándola como un ser humano que va atravesando diversos períodos de su existencia :

  1. El niño de guardería (1945-1955): el niño nace con los planteamientos teóricos de Vannevar Bush (1945) -muchos de los cuales se han alcanzado posteriormente con la evolución de la tecnología- y los índices KWIC propuestos por Luhn, el precursor de la Indización Automática (Rijsbergen, 1999).
  2. El niño de colegio (1960s): es la época donde algunos de los hoy principales sistemas de recuperación de información (Dialog y BRS por ejemplo) son proyectos embrionarios. Al mismo tiempo comienzan a desarrollarse las primeras bases de datos de repertorios bibliográficos (Chemical Abstracts o ERIC por ejemplo). También en esa época tienen lugar los experimentos de Cleverdon en el Instituto Cranfield (Sparck Jones, 1981), (Cleverdon, 1991).
  3. El adulto (1970s): cuando comienzan a tomar forma los primeros proyectos gracias al desarrollo de los periféricos de entrada de textos (teclados) que permitían construir grandes colecciones de textos mejor que los lectores de tarjetas perforadas. El otro factor clave son los sistemas de proceso de datos en tiempo real. En esta época surge –de forma incipiente- OCLC el mayor recolector de información bibliográfica a nivel mundial y se desarrolla el formato MARC para la catalogación automatizada de las colecciones de fondos de las bibliotecas. También es cuando se funda NSF (‘National Science Fundation’) institución que tanta importancia va a tener en las décadas siguientes. En esta época la comunidad de investigadores en recuperación de información coincide mucho con los dedicados a la Inteligencia Artificial. A nivel conceptual, el mayor avance lo constituye el modelo probabilístico de recuperación de información, introducido por ‘Keith’ Rijsbergen (1999).
  4. El maduro (1980s): al mismo tiempo que aumentan las facilidades para la entrada de la información disminuye el coste de los dispositivos de almacenamiento, aunque este proceso tiene su culminación en la década siguiente. Especialmente destaca en estos años la expansión del CD-ROM, hecho que revolucionó la entonces incipiente Industria de la Información. Paralelamente a la distribución de información en este formato asistimos al desarrollo de los primeros módulos de consulta de catálogos en línea (OPAC), que también alcanzan su plena expansión en la década siguiente gracias a la World Wide Web. En esta época se afianza la investigación en la producción de algoritmos eficientes para la recuperación de la información, correspondiendo a Croft y Fox los más conocidos. Pero si algo merece ser recordado de forma prioritaria en esta época, no es otra cosa que la propuesta de aplicación del modelo del espacio vectorial de Gerard Salton en la recuperación de la información.
  5. La crisis de los cuarenta (1990s): para quien no haya llegado aún a esa edad sólo decirle que no es un mito pero que se supera. En esta década el niño tiene ya 45 años aproximadamente y durante los primeros años parece funcionar con el piloto automático contentándose con los desarrollos del período anterior. Pero todo comienza a cambiar radicalmente cuando Tim Berners-Lee crea la World Wide Web, entorno que para muchos representa la plasmación de los postulados de Vannevar Bush y es cuando cabe preguntarse si el niño ha alcanzado su meta. Desde este momento todo cambia, tanto a nivel del sector industrial (surgen Netscape, Yahoo!, Lycos, Altavista y finalmente, en 1999, nace Google) como en el número de usuarios de los sistemas de recuperación de información (su volumen crece de forma exponencial). WAIS se conviertenen el estándar de los sistemas de búsqueda en bases de datos en la web, surgen los primeros índices y motores de búsqueda de recursos en los servidores web y el protocolo Z39.50 se consolida como la base para el desarrollo de las OPAC. En esta época nace, se consolida y finalmente desaparece Hytelnet, plataforma integradora para la consulta de catálogos en línea de multitud de bibliotecas de todo el mundo. La crisis de los cuarenta se supera, fijo.
  6. El deber cumplido (2000s): habiendo llegado a satisfacer (y a
    mejorar) gran parte de las ideas originarias de Bush, bien podría considerarse que la recuperación de información ha desarrollado con éxito su tarea y puede aspirar a un merecido descanso. Aunque esta idea pueda resultar apetecible, quizá no sea aún ese momento. Si bien se han producido avances en el proceso y la recuperación de la información textual, aún se presentan muchos problemas en la Indización Automática y no digamos ya en el campo de la recuperación de información multimedia. También está por ver si los algoritmos y sistemas desarrollados en los años 80s y 90s pueden hacer frente a las grandes colecciones de documentos que se están construyendo. Finalmente, el sector industrial está haciendo grandes esfuerzos por trasladar el escritorio de trabajo de cada usuarios desde el ordenador personal hacia la red.
  7. El retiro: si bien Lesk lo fija de manera muy optimista para el año 2010, es complicado que todos tengamos tanta suerte. El mismo podría resultar válido cuando todos los países del mundo posean un similar nivel en cuanto al desarrollo de los servicios y productos de la Sociedad de la Información. Aún queda mucho para ello (Lesk, 1995).

Los sistemas de recuperación de la información han evolucionado con el fin de adaptarse a este nuevo entorno, habiéndose llegado a desarrollar algunos de los sistemas más innovadores, al mismo tiempo que extensos, por no hablar de su popularidad, si bien aún no disponemos de metodologías suficientemente consolidadas que evalúen su efectividad. Esta evolución no es un proceso finalizado, sino más bien un proceso en realización, que lleva al establecimiento de nuevos términos, tales como WIS (‘web information systems’ o “sistemas de información basados en la tecnología web) destinados a integrarse plenamente con otros sistemas convencionales, llegando a ser más extendidos y de mayor influencia tanto en negocios como en la vida familiar” (Wan, 2001).

Modelos para la Recuperación de Información.

El diseño de un SRI se realiza bajo un modelo, donde queda definido “cómo se obtienen las representaciones de los documentos y de la consulta, la estrategia para evaluar la relevancia de un documento respecto a una consulta y los métodos para establecer la importancia (orden) de los documentos de salida” (Villena Román, 1997). Existen varias propuestas de clasificación de modelos, una de las síntesis más completas la realiza Dominich en cinco grupos (Dominich, 2000):

Modelo Descripción
Clásicos Este grupo incluye los tres más comunes: Lógico o
Booleano
, Probabilístico y del Espacio Vectorial.
Alternativos Estos modelos están basados en la Lógica Fuzzy.
Lógicos Están basados en la Lógica Formal y la recuperación de
información se lleva a cabo por medio de un proceso inferencial.
Basados en la interactividad Incluyen posibilidades de expansión del alcance de la
búsqueda y emplean la retroalimentación por relevancia de los documentos
recuperados.
Basados en la Inteligencia Artificial Bases de conocimiento, redes neuronales, algoritmos
genéticos y procesamiento del Lenguaje Natural.

Tabla II Clasificación de los Modelos de Recuperación de Información según Dominich. Fuente: Dominich, S. 2000.

Baeza-Yates clasifica los modelos de recuperación de información con base en la tarea inicial que realiza el usuario en el sistema: (1) recuperar información por medio de una ecuación de búsqueda (retrieval) que se inserta en un formulario destinado a ello, o (2) dedicar un tiempo a consultar (browse) los documentos en la búsqueda de referencias (Baeza-Yates, 1999), dando entrada en su clasificación al hipertexto [CON, 1988] [NIE, 1990], modelo en el cual se basa la web [BER, 1992].

Este mismo autor divide a los modelos basados en la recuperación en dos grupos: clásicos y estructurados. En el primero de ellos incluye a los modelos booleano, espacio vectorial y probabilístico. Posteriormente, presenta una serie de paradigmas alternativos a cada modelo: teoría de conjuntos (conjuntos difusos y booleano extendido), algebraicos (vector generalizado, indización por semántica latente y redes neuronales), y por último, probabilísticos (redes de inferencia y redes de conocimiento); los modelos estructurados corresponden a listas de términos sin solapamiento y a nodos próximos (son modelos escasamente difundidos). Los modelos basados en la navegación entre páginas web son de tres tipos: estructura plana, estructura guiada e hipertexto.

El primero es una simple lectura de un documento aislado del contexto, el segundo incorpora la posibilidad de facilitar la exploración organizando los documentos en una estructura tipo directorio con jerarquía de clases y subclases y el tercero se basa en la idea de un sistema de información que de la posibilidad de adquirir información de forma no estrictamente secuencial sino a través de nodos y enlaces (Baeza-Yates, 1999). Es también Baeza-Yates quien proporciona una clasificación adicional de estos modelos de recuperación de información, realizada en función de la modalidad de consulta y de la vista lógica de los documentos:

Vista lógica de los documentos.

Modalidad RI Términos Índice Texto Completo Texto Completo y Estructura
Recuperación Clásicos (booleano, probabilísticos y espacio vectorial).

Conjuntos teóricos (extensión del booleano)

Algebraicos (extensión del espacio vectorial)

Probabilísticos (extensión de los probabilísticos)

Clásicos (booleano, probabilísticos y espacio vectorial).

Conjuntos teóricos (extensión del booleano)

Algebraicos (extensión del espacio vectorial)

Probabilísticos (extensión de los probabilísticos)

Estructurados
Navegación Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla III Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. Fuente: Baeza-Yates, R. (1999).

Tanto Baeza-Yates (Baeza-Yates, 1999) como Villena Román (Villena Román, 1997) llevan a cabo una presentación detallada de cada uno de los modelos, siendo también interesante la lectura de Grossman y Frieder [GRO, 1998], para conocer las alternativas a los modelos clásicos.

El Modelo Booleano.

Este modelo es el más popular y conocido de los SRI. Concibe a la base de datos como un inmenso conjunto de documentos y cada búsqueda como un subconjunto de documentos. Emplea el criterio simple de relevancia binaria: un documento es relevante o no lo es, sin término medio y un documento es relevante sólo cuando contiene la palabra solicitada.

Este modelo no discrimina entre documentos más o menos relevantes. Da igual que un documento contenga una vez la palabra solicitada o que la contenga treinta veces (es decir, no considera los pesos de las palabras en los documentos). En una operación de búsqueda en la que se emplea el operador de la Unión no discrimina si se satisface una o varias cláusulas OR. En una operación AND no acepta que se cumplan casi todas las cláusulas (acierto parcial).

El lenguaje natural presenta a veces muchas discrepancias con el lenguaje booleano, especialmente cuando se trata de usuarios no especializados. Es frecuente encontrarnos con ecuaciones de búsqueda donde los usuarios de un SRI que tienen la siguiente necesidad de información "me interesa información sobre la Región de Murcia, su geografía, su gastronomía y su pluviometría", transcriben: REGION AND MURCIA AND GEOGRAFIA AND GASTRONOMIA AND PLUVIOMETRÍA cuando realmente lo que quieren localizar debería escribirse (REGION AND MURCIA) AND (GEOGRAFIA OR GASTRONOMIA OR PLUVIOMETRIA)

Este tipo de error es menos frecuente en el caso de los usuarios más especializados, para quienes este sistema puede llegar a ser efectivo, a pesar de los problemas de relevancia.

Además del operador AND (intersección, el operador más inmediato y sin duda el más utilizado) se suele disponer del operador OR (unión) y NOT (exclusión de un subconjunto de documentos de otro).

esquema funcionamiento modelo booelan

Fuente: Tolosa, G. y Bordigan, F. http://ferbor.blogspot.com/2006/11/modelos-de-recuperacin-de-informacin.html

El Modelo del Espacio Vectorial (I)

documento básico de referencia

G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620.

Vamos a prestar un poco más de atención a este modelo, el más utilizado en la actualidad en los SRI (especialmente en la web). Este modelo entiende que los documentos pueden expresarse en función de unos vectores que recogen la frecuencia de aparición de los términos en los documentos. Los términos que forman esa matriz serían términos no vacíos, es decir, dotados de algún significado a la hora de recuperar información y por otro lado, estarían almacenados en formato “stemmed” (reducidos los términos a una raíz común, tras un procedimiento de aislamiento de la base que agruparía en una misma entrada varios términos).

Un documento se modeliza como un vector (o fila de una matriz de términos y documentos) en el que se indican las apariciones de cada término de la base de datos en ese documento. Normalmente se trabajan con pesos, que representan las importancias de los términos en el documento y en la colección. Si un término aparece mucho en un documento, se supone que es importante en ese documento aunque si aparece en muchos documentos, ese término no es útil para distinguir ningún documento del resto de la colección. Lo que se intenta en este modelo es medir cuánto ayuda un término a distinguir un documento de los demás.

vista geométrica del modelo del espacio vectorial

La recuperación de información se lleva a cabo calculando la similitud existente entre la ecuación de búsqueda (que también se transforma en un vector) y los documentos de la base de datos que tengan los términos expresados en la ecuación de búsqueda y ordenados de mayor a menor valor de similitud.

Si disponemos de un SRI con los siguientes cuatro documentos:

D1: el río Danubio pasa por Viena, su color es azul

D2: el caudal de un río asciende en Invierno

D3: el río Rhin y el río Danubio tienen mucho caudal

D4: si un río es navegable, es porque tiene mucho caudal

Su matriz correspondiente dentro del modelo del Espacio Vectorial podría ser la siguiente (decimos "podría" porque hemos eliminado según nuestro parecer algunas palabras vacías tipo "el" o "por"; si se eliminaran otras palabras se dispondría de una matriz diferente):

  río Danubio Viena color azul caudal invierno Rhin navegable
D1 1 1 1 1 1 0 0 0 0
D2 1 0 0 0 0 1 1 0 0
D3 2 1 0 0 0 1 0 1 0
D4 1 0 0 0 0 1 0 0 1

Por medio de un proceso denominado stemming, quizá el SRI hubiera truncado algunas de las entradas para reducirlas a un formato de raíz común, pero para continuar con la explicación resulta más sencillo e ilustrativo dejar los términos en su formato normal. En cuanto a las palabras vacías, hemos supuesto que el SRI elimina los determinantes, preposiciones y verbos (“el”, “pasa”, “por”, etc. ), presentes en los distintos documentos.

Para entregar la respuesta a una determinada pregunta se realizan una serie de operaciones. La primera es traducir la pregunta al formato de un vector de términos. Así, si la pregunta fuera “¿cuál es el caudal del río Danubio?”, su vector de términos sería Q = (1,1,0,0,0,1,0,0,0). El siguiente paso es calcular la similitud existente entre el vector pregunta y los vectores de los documentos (existen varias funciones matemáticas diseñadas para ello) y ordenar la respuesta en función de los resultados de similitud obtenidos.

Este procedimiento simple ha sido ligeramente modificado cuando se comenzó a considerar que la tf (la frecuencia absoluta de aparición de un término en un documento), es un factor que precisa de una corrección, porque la importancia de un término en función de su distribución puede llegar a ser desmesurada (por ejemplo, una frecuencia de 2 es 200% más importante que una frecuencia de 1, y la diferencia aritmética es sólo de una unidad).

Sparck-Jones y otros autores apreciaron la capacidad de discriminación de un término frente a otro. Esta importancia o generalidad de un término dentro de la colección ha de ser vista en su conjunto no en un único documento, y se pensó en incentivar la presencia de aquellos términos que aparecen en menos documentos frente a los que aparecen en todos o casi todos, ya que realmente los muy frecuentes discriminan poco o nada a la hora de la representación del contenido de un documento. Para medir este valor de discriminación se propone la medida idf (frecuencia inversa de documento).

Así, para la construcción de la matriz de términos y documentos, se consideran las siguientes definiciones:

  • n = número de términos distintos en la colección de documentos
  • tfij = número de ocurrencias de término tj en el documento Di [frecuencia del término o tf]
  • dfj = número de documentos que contienen el término tj
  • idfj = el log(d/dfj), donde d es el número total de documentos [frecuencia inversa del documento]

El vector para cada documento tiene n componentes y contiene una entrada para cada término distinto en la colección entera de documentos. Los componentes en el vector se fijan con los pesos calculados para cada término en la colección de documentos. A los términos en cada documento automáticamente se le asignan pesos basándose en la frecuencia con que ocurren en la colección entera de documentos y en la aparición de un término en un documento particular.

El peso de un término en un documento aumenta si este aparece más a menudo en un documento y disminuye si aparece más a menudo en todos los demás documentos. El peso para un término en un vector de documento es distinto de cero sólo si el término aparece en el documento. Para una colección de documentos grande que consiste en numerosos documentos pequeños, es probable que los vectores de los documentos contengan ceros principalmente. Por ejemplo, una colección de documentos con 10000 términos distintos genera un vector 10000-dimensional para cada documento. Un documento dado que tenga sólo 100 términos distintos tendrá un vector de documento que contendrá 9900 ceros en sus componentes.

El Modelo del Espacio Vectorial (II)

El cálculo del factor de peso (d) para un término en un documento se define como combinación de la frecuencia de término (tf), y la frecuencia inversa del documento (idf). Para calcular el valor de la j-esima entrada del vector que corresponde al documento i, se emplea la ecuación siguiente: dij=tfij x idfj. El cálculo de las frecuencias inversas de los términos en los documentos y la posterior aplicación de esta fórmula sobre la matriz de nuestro ejemplo, proporcionaría la siguiente matriz de pesos (a la que añadimos una fila con el vector pregunta).

Cálculo de frecuencias inversas
Idf (río) = Log (4/4) = log (1) = 0
Idf (Danubio) = Log (4/2) = log 2 = 0.301
Idf (Viena) = Log (4/1) = log 4 = 0.602
Idf (color) = Log (4/1) = log 4 = 0.602
Idf (azul) = Log (4/1) = log 4 = 0.602
Idf (caudal) = Log (4/3) = log 1.33 = 0.124
Idf (invierno) = Log (4/1) = log 4 = 0.602
Idf (Rhin) = Log (4/1) = log 4 = 0.602
Idf (navegable) = Log (4/1) = log 4 = 0.602

Matriz tf-idf

  río Danubio Viena color azul caudal invierno Rhin navegable
D1 0 0.301 0.602 0.602 0.602 0 0 0 0
D2 0 0 0 0 0 0.124 0.602 0 0
D3 0 0.301 0 0 0 0.124 0 0.602 0
D4 0 0 0 0 0 0.124 0 0 0.602

Ahora corresponde calcular las similitudes existentes entre los distintos documentos (D1, D2, D3 y D4) y el vector Q de la pregunta. Hay que multiplicar componente a componente de los vectores y sumar los resultados. El modo más sencillo de obtener la similitud es por medio del producto escalar de los vectores (es decir, multiplicando los componentes de cada vector y sumando los resultados).

Cálculo de similitudes:

Sim (D1,Q) = 0*0 + 0.301*0.301 + 0.602*0 + 0.602*0 + 0.602*0 + 0*0.124+ 0*0 + 0*0 +0*0 = 0.09
Sim (D2,Q) = 0*0 + 0*0.301 + 0*0 + 0*0 + 0*0 + 0.124*0.124 + 0.602*0 + 0*0 + 0*0 = 0.01
Sim (D3,Q) = 0*0 + 0.301*0.301 + 0*0 + 0*0 + 0*0 + 0.124*0.124 + 0*0 + 0.602*0 + 0*0 = 0.10
Sim (D4,Q) = 0*0 + 0*0.301 + 0*0 + 0*0 + 0*0 + 0.124*0.124 + 0*0 + 0*0 + 0.602*0 = 0.01

Con estos valores de similitud, se obtiene la siguiente respuesta: {D3, D2, D1, D4}. Podemos observar en este ejercicio un ejemplo de acierto y un ejemplo de fallo de este modelo, ya que el primero de los documentos recuperados sí responde a la pregunta (D3) y al mismo tiempo los demás no responden adecuadamente (realmente la similitud es muy baja).

Casos como el presente, justifican la presencia de documentos no relevantes en la respuesta de los SRI y que este esquema básico de alineamiento haya sufrido muchos cambios.

El Modelo Probabilístico.

documento básico de referencia

Fhur N. (1992), "Probabilistic models in Information Retrieval,"

En este modelo se presupone que existe exactamente un subconjunto de documentos que son relevantes para una consulta dada. Para cada documento se intenta evaluar la probabilidad de que el usuario lo considere relevante. La relevancia de un documento es el resultado de dividir la Probabilidad de que el documento sea relevante para una pregunta entre la Probabilidad de que no lo sea.

Este modelo es poco aceptado porque es necesario poseer una sólida base matemática para su aplicación. Además, se debe comenzar adivinando y posteriormente ir refinando la apuesta inicialmente realizada de forma iterativa.

Este modelo no toma en cuenta la frecuencia de aparición del términos y necesita suponer que todos los términos son independientes unos de otros, situaciones algo alejada de la realidad porque, como bien sabemos, hay términos cuya presencia suele estar muy vinculada (por ejemplo, "red" e "internet" suelen estar muy presentes de forma conjunta).

Bibliografía.

En esta sección presentaremos todos los documentos que han servido para la elaboración de este libro. Los mismos se presentarán en el formato de cita bibliográfica APA 5th ed. style y en algunos se acompañará la descripción con un breve comentario.

ALA. Glosario A.L.A. de Bibliotecología y Ciencias de la Información. 1983.

Referencia: American Library Association. Glosario A.L.A. de Bibliotecología y Ciencias de la Información. Madrid: Díaz de Santos, 1983.

Blair, D.C. Language and representation in information retrieval. 1990.

Referencia: Blair, D.C. Language and representation in information retrieval. Amsterdam [etc.]: Elsevier Science Publishers, 1990.

Bibliografía del autor:dblp - Computer Sciences Bibliography

C.J. Rijsbergen. Information Retrieval. 1979

Referencia: Rijsbergen, C.J. Information Retrieval. London: Butterworths, 1979. En línea

Comentario:

Grossman, D.A. & Frieder, O. Information retrieval: algorithms and heuristics. 1998.

Referencia: Grossman, D.A. and Frieder, O. Information retrieval: algorithms and heuristics. Boston: Kluwer Academia Publishers, 1998.

Bibliografía: dblp - Computer Science Bibliography.

Longley, D. & Shain M. Mac Millan Dictionary of IT. 1989.

Referencia: Longley, D. and Shain M. Mac Millan Dictionary of IT. London and Basingstoke: The MacMillan Press, 1989.

Meadow, C. T. Text Information retrieval Systems. 1993.

Referencia: Meadow, C. T. Text Information retrieval Systems. San Diego: Academic Press, 1993.

Página del autor:http://www3.fis.utoronto.ca/faculty/meadow/

Pérez-Carballo, J. & Strzalkowski, T. Natural language information retrieval: progress report. 2000

Referencia: Pérez-Carballo, J. and Strzalkowski, T. ‘Natural language information retrieval: progress report’. Information Processing and Management 36, 2000. p. 155-178

Tramullas Sáez, J. Introducción a la Documática. 1997.

Referencia: Tramullas Sáez, J. Introducción a la Documática. Zararagoza: Kronos, 1997.