Semi-supervised learning models for documentclassification: A systematic review and meta-analysis

cic.institucionOrigenLaboratorio de Investigación y Formación en Informática Avanzada (LIFIA)
cic.isFulltextSI
cic.isPeerReviewedSI
cic.lugarDesarrolloLaboratorio de Investigación y Formación en Informática Avanzada (LIFIA)
cic.parentTypeArtículo
cic.versionPublicada
dc.date.accessioned2025-05-07T18:13:20Z
dc.date.available2025-05-07T18:13:20Z
dc.identifier.urihttps://digital.cic.gba.gob.ar/handle/11746/12477
dc.titleSemi-supervised learning models for documentclassification: A systematic review and meta-analysisen
dc.typeArtículo
dcterms.abstractThe proliferation of digital documents in the internet has given rise to the search for informationpatterns that allow for the categorization of organizational documents to generate knowledge in a institution.One of the Artificial Intelligence techniques for this purpose is text classification, which for its application useslabels (categorized documents) with supervised (with labels) or unsupervised (without labels) training models.Both traditional models with their advantages and disadvantages have been consolidated into semi-supervisedmodels to extract the best qualities of each one, however, the labeling process involves resources that need to beoptimized to improve the classification accuracy. An analysis of the types of semi-supervised models would showthe strengths of their training and how the structure of each of them affects the accuracy of their classification. Thepresent study proposes a structure of semi-supervised model in document classification, in order to analyze thequalities of each one in their categorization process, it through a systematic literature review (SLR) that analyzesthe performance of the studies to conduct a meta-analysis. Further, the study search strategy was defined by thePICOC method (Population, Intervention, Comparison, Outcome, Context), supported by two research questionsand delimited in a search chain that allowed the collection of 332 research studies. These papers were filteredusing the PRISMA method and the determination of exclusion criteria, in total 46 papers have been selected forthe present study.From this SLR, an organizational structure has been obtained for semi-supervised models anda scheme for the classification process. In addition, the advantages and disadvantages of different learning typeshave been analyzed, evaluating their classification performance in each type of learning through a meta-analysis.This has determined that the models that present the best levels of performance are active learning model (0.88)and ensemble learning model (0.84)en
dcterms.abstractLa proliferación de documentos digitales en la red ha dado lugar a la búsqueda de patrones de información que permitan la categorización de documentos organizacionales para generar conocimiento en una determinada institución. Una de las técnicas de la Inteligencia Artificial para este efecto es la clasificación de texto, la cual para su aplicación emplea etiquetas (documentos categorizados) con modelos de entrenamiento supervisados (con etiquetas) o no-supervisados (sin etiquetas). Ambos modelos tradicionales con sus ventajas y desventajas, se han visto cohesionados en los modelos semi-supervisados que extraen las mejores cualidades de cada uno, sin embargo, el proceso de etiquetado implica recursos que buscan ser optimizados para mejorar la precisión de clasificación. Un análisis de los tipos de modelos semi-supervisados mostraría las fortalezas de su entrenamiento y la forma en que la estructura de cada uno de ellos incide en la precisión de su clasificación. En el presente estudio se propone una estructura de los tipos de modelos semi-supervisados en la clasificación de documentos, para de esta manera analizar las cualidades de cada uno de ellos en su proceso de categorización, esto a través de una SLR (Revisión de literatura sistemática) que analiza el rendimiento de los estudios para efectuar un meta-análisis. La estrategia de búsqueda de estudios ha sido definida con el método PICOC (Población, Intervención, Comparación, Salidas, Contexto), el cual, apoyado en dos preguntas de investigación, define una cadena de búsqueda que ha permitido recopilar 332 investigaciones, filtradas con el método de la declaración PRISMA y la determinación de criterios de exclusión, seleccionando así 46 investigaciones para el estudio. De la SLR se ha obtenido una estructura de organización para los modelos semi-supervisados y un esquema del proceso de clasificación. También, se ha analizado las ventajas y desventajas de los diferentes tipos de aprendizaje, evaluando su desempeño de clasificación en cada tipo de aprendizaje a través de un meta-análisis. Se determina que los modelos que presentan los mejores niveles de rendimiento son el aprendizaje activo (0.88) y ensamblado (0.84).es
dcterms.creator.authorCevallos-Culqui, Alex
dcterms.creator.authorPons, Claudia Fabiana
dcterms.creator.authorRodríguez, Gustavo
dcterms.extent81-111
dcterms.identifier.otherDOI: 10.4114/intartif.vol26iss72
dcterms.identifier.otherISSN: 1988-3064
dcterms.identifier.urlhttps://journal.iberamia.org/index.php/intartif/article/view/871/189
dcterms.isPartOf.issuevol. 26, no. 72
dcterms.isPartOf.seriesInteligencia Artificial. Revista Iberoamericana de Inteligencia Artificial
dcterms.issued2023-12
dcterms.languageInglés
dcterms.licenseAttribution-NonCommercial 4.0 International (BY-NC 4.0)
dcterms.subjecttext classificationen
dcterms.subjectdocument classificationen
dcterms.subjectsemi-supervised modelsen
dcterms.subjectsystematic reviewen
dcterms.subjectclasificación de textoes
dcterms.subjectclasificación documentoses
dcterms.subjectmodelos semi-supervisadoes
dcterms.subjectrevisión sistemáticaes
dcterms.subject.materiaCiencias de la Computación e Información

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Semi-supervised learning models-PDFA.pdf
Tamaño:
4.76 MB
Formato:
Adobe Portable Document Format
Descripción:
Documento completo

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.46 KB
Formato:
Item-specific license agreed upon to submission
Descripción: