Detección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguaje

cic.institucionOrigenLaboratorio de Investigación y Formación en Informática Avanzada (LIFIA)
cic.isFulltextSI
cic.isPeerReviewedSI
cic.lugarDesarrolloLaboratorio de Investigación y Formación en Informática Avanzada (LIFIA)
cic.parentTypeObjeto de conferencia
cic.versionPublicada
dc.date.accessioned2025-08-20T14:13:30Z
dc.date.available2025-08-20T14:13:30Z
dc.identifier.urihttps://digital.cic.gba.gob.ar/handle/11746/12535
dc.titleDetección de idiomas como tarea de curaduría de datos para repositorios institucionales: desempeño de bibliotecas disponibles y modelos de lenguajees
dc.typeDocumento de conferencia
dcterms.abstract- Presentación del problema: El enorme volumen de recursos almacenados actualmente en los repositorios digitales representa una gran dificultad a la hora de supervisar y corregir errores o mejorar la calidad de los metadatos. El presente trabajo se enfoca en la corrección del metadato idioma en los registros de resúmenes del repositorio institucional SEDICI. - Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes compatibles con el método zero-shot (langdetect, CLD3, fastText, Polyglot, langid y TextCat). Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio. Para tratar de mejorar aún más la detección de idiomas se entrenó un modelo mBERT multilenguaje y se comparó su desempeño con el conjunto más pequeño de ítems cuya clasificación por idiomas era diferente entre humanos y la biblioteca Polyglot. - Resultados: En general, todas las bibliotecas de detección de idiomas mostraron alrededor de un 95% de coincidencia con los idiomas identificados y catalogados por los humanos. En el caso de los modelos mBERT entrenados las coincidencias obtenidas son bajas tanto para los idiomas detectados automáticamente por Polyglot como los catalogados por humanos (78,7% y 19,6% respectivamente). Se encontraron errores de catalogación atribuibles a humanos, pero también errores de las bibliotecas o de los modelos de lenguaje en la tarea de detección.es
dcterms.creator.authorNusch, Carlos Javier
dcterms.creator.authorCagnina, Leticia Cecilia
dcterms.creator.authorErrecalde, Marcelo Luis
dcterms.creator.authorAntonelli, Leandro
dcterms.creator.authorDe Giusti, Marisa Raquel
dcterms.extent16-31
dcterms.identifier.otherISBN: 978-9968-08-017-0
dcterms.isPartOf.itemActas BIREDIAL-ISTEC 2024: Conferencia Internacional BIREDIAL-ISTEC
dcterms.isPartOf.seriesConferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC) (Santiago de Chile, 22 al 24 de octubre de 2024)
dcterms.issued2024-10
dcterms.languageEspañol
dcterms.licenseAttribution 4.0 International (BY 4.0)
dcterms.subjectRepositorios Institucionaleses
dcterms.subjecttareas de curaduría de datoses
dcterms.subjectherramientas de detección de idiomases
dcterms.subjectmodelos mBERT para detección de idiomases
dcterms.subjectenfoque zero-shotes
dcterms.subjectInstitutional Repositories, Data Curation Tasksen
dcterms.subjectLanguage Detection Toolsen
dcterms.subjectmBERT Models for Language Detectionen
dcterms.subjectzero-shot approachen
dcterms.subject.materiaCiencias de la Computación e Información

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Documento_completo.pdf-PDFA.pdf (1).pdf
Tamaño:
438.78 KB
Formato:
Adobe Portable Document Format
Descripción:
Documento completo

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.46 KB
Formato:
Item-specific license agreed upon to submission
Descripción: