Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje

Nusch, Carlos Javier; Cagnina, Leticia Cecilia; Errecalde, Marcelo Luis; Antonelli, Leandro; De Giusti, Marisa Raquel

Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje

cic.institucionOrigen	Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA)
cic.isFulltext	SI
cic.isPeerReviewed	SI
cic.lugarDesarrollo	Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA)
cic.parentType	Objeto de conferencia
cic.version	Publicada
dc.date.accessioned	2025-08-20T14:13:30Z
dc.date.available	2025-08-20T14:13:30Z
dc.identifier.uri	https://digital.cic.gba.gob.ar/handle/11746/12535
dc.title	Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje	es
dc.type	Documento de conferencia
dcterms.abstract	- Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se encontraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección.	es
dcterms.creator.author	Nusch, Carlos Javier
dcterms.creator.author	Cagnina, Leticia Cecilia
dcterms.creator.author	Errecalde, Marcelo Luis
dcterms.creator.author	Antonelli, Leandro
dcterms.creator.author	De Giusti, Marisa Raquel
dcterms.extent	16-31
dcterms.identifier.other	ISBN: 978-9968-08-017-0
dcterms.isPartOf.item	Actas BIREDIAL-ISTEC 2024: Conferencia Internacional BIREDIAL-ISTEC
dcterms.isPartOf.series	Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC) (Santiago de Chile, 22 al 24 de octubre de 2024)
dcterms.issued	2024-10
dcterms.language	Español
dcterms.license	Attribution 4.0 International (BY 4.0)
dcterms.subject	Repositorios Institucionales	es
dcterms.subject	tareas de curaduría de datos	es
dcterms.subject	herramientas de detección de idiomas	es
dcterms.subject	modelos mBERT para detección de idiomas	es
dcterms.subject	enfoque zero-shot	es
dcterms.subject	Institutional Repositories, Data Curation Tasks	en
dcterms.subject	Language Detection Tools	en
dcterms.subject	mBERT Models for Language Detection	en
dcterms.subject	zero-shot approach	en
dcterms.subject.materia	Ciencias de la Computación e Información

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Documento_completo.pdf-PDFA.pdf (1).pdf
Tamaño:: 438.78 KB
Formato:: Adobe Portable Document Format
Descripción:: Documento completo

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.46 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Artículos y presentaciones en Congresos LIFIA