De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI

Nusch, Carlos Javier (CESGI); Calarco, Gabriel Alejandro; Del Rio Riande, María Gimena; Cagnina, Leticia Cecilia; Antonelli, Leandro; Errecalde, Marcelo Luis

De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI

cic.institucionOrigen	Centro de Servicios en Gestión de Información
cic.isFulltext	SI
cic.isPeerReviewed	SI
cic.lugarDesarrollo	Centro de Servicios en Gestión de Información
cic.lugarDesarrollo	Proyecto de Enlace de Bibliotecas
cic.parentType	Artículo
dc.date.accessioned	2026-06-01T13:52:05Z
dc.date.available	2026-06-01T13:52:05Z
dc.identifier.uri	https://digital.cic.gba.gob.ar/handle/11746/12695
dc.title	De Catulo a Wikidata: automatización de tareas de codificación utilizando modelos de lenguaje, esquemas de metadatos y ontologías para un borrador de edición digital con el estándar XML-TEI	es
dc.type	Artículo
dcterms.abstract	Este artículo presenta un conjunto de procedimientos automatizados aplicados a la codificación y al análisis de un corpus poético que incluye las obras de Cayo Valerio Catulo, Albio Tibulo y Sexto Propercio. Para ello se diseñó un pipeline reproducible de procedimientos automatizados con el fin de codificar y analizar los textos latinos, integrando PLN con LatinCy (spaCy) y codificación XML-TEI. El flujo genera TEI con teiHeader y cuerpo, versos segmentados y numerados, marcado preliminar de entidades (personas, lugares o grupos) y anotación temática basada en el Diccionario de motivos amatorios de Moreno Soldevila mediante n-gramas y distancia de Levenshtein, implementada en tres modalidades TEI (stand-off, flatten e híbrida). Como productos principales, se obtuvieron 200 archivos TEI validados, un CSV consolidado de entidades con candidatos e identificadores recuperados desde VIAF, Pleiades y Wikidata (reutilizable para curaduría y enriquecimiento posterior), y un conjunto de visualizaciones (barras y grafos de coocurrencia) para comparar patrones del imaginario amoroso entre autores; en la ejecución completa se registraron, además, 371 tópicos en Catulo, 450 en Tibulo y 730 en Propercio. Aunque los resultados no reemplazan la validación filológica (por ambigüedad, ruido de NER y falsos positivos/negativos en el matching), el enfoque ofrece una base técnica sólida para ediciones digitales semánticamente enriquecidas y para análisis exploratorios o cuantitativos con trazabilidad y supervisión editorial.	es
dcterms.abstract	This article presents a set of automated procedures applied to the encoding and analysis of a poetic corpus comprising the works of Gaius Valerius Catullus, Albius Tibullus, and Sextus Propertius. To this end, we designed a reproducible pipeline of automated steps to encode and analyze Latin texts, integrating NLP with LatinCy (spaCy) and XML-TEI encoding. The workflow produces TEI documents with a teiHeader and body, segmented and numbered verses, preliminary tagging of entities (persons, places, or groups), and thematic annotation based on Moreno Soldevila’s Dictionary of Amatory Motifs using character and word n-grams and Levenshtein distance, implemented in three TEI modalities (stand-off, flatten, and hybrid). The main outputs include 200 validated TEI files, a consolidated CSV of entities with candidates and persistent identifiers retrieved from VIAF, Pleiades, and Wikidata (reusable for subsequent curation and enrichment), and a set of visualizations (bar charts and co-occurrence graphs) to compare patterns in the amatory imaginary across authors; the full run additionally recorded 371 motifs in Catullus, 450 in Tibullus, and 730 in Propertius. Although these results do not replace philological validation (due to ambiguity, NER noise, and false positives/negatives in matching), the approach provides a solid technical basis for semantically enriched digital editions and for exploratory or quantitative analyses with traceability and editorial oversight.	en
dcterms.alternative	From Catullus to Wikidata: Automating Coding Tasks Using Language Models, Metadata Schemas, and Ontologies for a Digital Editing Draft with the XML-TEI Standard	es
dcterms.creator.author	Nusch, Carlos Javier (CESGI)
dcterms.creator.author	Calarco, Gabriel Alejandro
dcterms.creator.author	Del Rio Riande, María Gimena
dcterms.creator.author	Cagnina, Leticia Cecilia
dcterms.creator.author	Antonelli, Leandro
dcterms.creator.author	Errecalde, Marcelo Luis
dcterms.identifier.other	https://doi.org/10.4000/16a7i
dcterms.isPartOf.series	Journal of the Text Encoding Initiative
dcterms.issued	2026-05-27
dcterms.language	Español
dcterms.license	Attribution 4.0 International (BY 4.0)
dcterms.subject	digital edition	es
dcterms.subject	XML-TEI	es
dcterms.subject	Latin poetry	es
dcterms.subject	Natural Language Processing	es
dcterms.subject	LatinCy	es
dcterms.subject	Named Entity Recognition	es
dcterms.subject	lemmatization	es
dcterms.subject	thematic annotation	es
dcterms.subject	Levenshtein distance	es
dcterms.subject	visualization	es
dcterms.subject	edición digital	es
dcterms.subject	poesía latina	es
dcterms.subject	Procesamiento del lenguaje natural	es
dcterms.subject	reconocimiento de entidades nombradas	es
dcterms.subject	lematización	es
dcterms.subject	codificación temática	es
dcterms.subject	distancia de Levenshtein	es
dcterms.subject	Visualización	es
dcterms.subject.materia	Ciencias de la Información y Bioinformática
dcterms.subject.materia	Literaturas Específicas

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Documento_completo. De Catulo a Wikidata PDFA.pdf
Tamaño:: 1.99 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.46 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Artículos, informes y presentaciones en Congresos CESGI