Documento de conferencia

Recuperación y clasificación automática de información, resultados actuales y perspectivas futuras

| | |
Resumen

En este trabajo se presenta una herramienta de recolección de información abierta que, mediante la combinación de ontologías y tesauros, brindará información clasificada y unificada en un repositorio temático a los usuarios del Servicio de Difusión de la Creación Intelectual (SeDiCI); esta clasificación permitirá optimizar considerablemente las búsquedas dentro del portal.\nSeDiCI posee actualmente una gran cantidad de documentos con una sintaxis y catalogación correctas, pero carece de relaciones semánticas entre los mismos. Esta falta de relaciones semánticas genera mayores esfuerzos por parte de los usuarios para vincular documentos unos con otros, a fin de filtrar y clasificar los resultados de una consulta a partir de un dominio específico.\nCon el objeto de ayudar a los usuarios de SeDiCI a encontrar información pertinente, se propone aquí la incorporación de una herramienta capaz de establecer relaciones semánticas entre los documentos. Esta herramienta constará de dos módulos: el primero estará encargado de recolectar información abierta de interés mediante un agente que navega recursivamente a través de las URLs de los documentos localizados; el segundo módulo será capaz de identificar las páginas marcadas junto a sus etiquetas, y proveer un conjunto de reglas para extraer la información y guardarla en un fichero RDF. A continuación se realizará un proceso de homogeneización entre los términos encontrados, clasificando la información en función de una ontología de dominio. El material recolectado poblará de este modo la ontología, sumándose al repositorio semántico. Para las primeras pruebas de esta herramienta, se utilizará el repositorio propio de SeDiCI, junto con una operación de marcado automática.\nUna vez que los documentos hayan sido vinculados semánticamente, se proveerá un buscador capaz de aprovechar estas nuevas relaciones-compuestas por clases y subclases-dentro de la ontología lo cual resultará en una considerable mejora en el proceso de organización y entrega de información pertinente al usuario.

Palabras clave
Almacenamiento y Recuperación de la Información
Web Semántica
SEDICI
repositorios
http://creativecommons.org/licenses/by/4.0/

Esta obra se publica con la licencia Creative Commons Attribution 4.0 International (BY 4.0)

item.page.license
Imagen en miniatura