Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje
cic.institucionOrigen | Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA) | |
cic.isFulltext | SI | |
cic.isPeerReviewed | SI | |
cic.lugarDesarrollo | Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA) | |
cic.parentType | Objeto de conferencia | |
cic.version | Publicada | |
dc.date.accessioned | 2025-08-20T14:13:30Z | |
dc.date.available | 2025-08-20T14:13:30Z | |
dc.identifier.uri | https://digital.cic.gba.gob.ar/handle/11746/12535 | |
dc.title | Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje | es |
dc.type | Documento de conferencia | |
dcterms.abstract | - Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se encontraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección. | es |
dcterms.creator.author | Nusch, Carlos Javier | |
dcterms.creator.author | Cagnina, Leticia Cecilia | |
dcterms.creator.author | Errecalde, Marcelo Luis | |
dcterms.creator.author | Antonelli, Leandro | |
dcterms.creator.author | De Giusti, Marisa Raquel | |
dcterms.extent | 16-31 | |
dcterms.identifier.other | ISBN: 978-9968-08-017-0 | |
dcterms.isPartOf.item | Actas BIREDIAL-ISTEC 2024: Conferencia Internacional BIREDIAL-ISTEC | |
dcterms.isPartOf.series | Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC) (Santiago de Chile, 22 al 24 de octubre de 2024) | |
dcterms.issued | 2024-10 | |
dcterms.language | Español | |
dcterms.license | Attribution 4.0 International (BY 4.0) | |
dcterms.subject | Repositorios Institucionales | es |
dcterms.subject | tareas de curaduría de datos | es |
dcterms.subject | herramientas de detección de idiomas | es |
dcterms.subject | modelos mBERT para detección de idiomas | es |
dcterms.subject | enfoque zero-shot | es |
dcterms.subject | Institutional Repositories, Data Curation Tasks | en |
dcterms.subject | Language Detection Tools | en |
dcterms.subject | mBERT Models for Language Detection | en |
dcterms.subject | zero-shot approach | en |
dcterms.subject.materia | Ciencias de la Computación e Información |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Documento_completo.pdf-PDFA.pdf (1).pdf
- Tamaño:
- 438.78 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Documento completo
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 3.46 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: