Semi-supervised learning models for documentclassification: A systematic review and meta-analysis
cic.institucionOrigen | Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA) | |
cic.isFulltext | SI | |
cic.isPeerReviewed | SI | |
cic.lugarDesarrollo | Laboratorio de Investigación y Formación en Informática Avanzada (LIFIA) | |
cic.parentType | Artículo | |
cic.version | Publicada | |
dc.date.accessioned | 2025-05-07T18:13:20Z | |
dc.date.available | 2025-05-07T18:13:20Z | |
dc.identifier.uri | https://digital.cic.gba.gob.ar/handle/11746/12477 | |
dc.title | Semi-supervised learning models for documentclassification: A systematic review and meta-analysis | en |
dc.type | Artículo | |
dcterms.abstract | The proliferation of digital documents in the internet has given rise to the search for informationpatterns that allow for the categorization of organizational documents to generate knowledge in a institution.One of the Artificial Intelligence techniques for this purpose is text classification, which for its application useslabels (categorized documents) with supervised (with labels) or unsupervised (without labels) training models.Both traditional models with their advantages and disadvantages have been consolidated into semi-supervisedmodels to extract the best qualities of each one, however, the labeling process involves resources that need to beoptimized to improve the classification accuracy. An analysis of the types of semi-supervised models would showthe strengths of their training and how the structure of each of them affects the accuracy of their classification. Thepresent study proposes a structure of semi-supervised model in document classification, in order to analyze thequalities of each one in their categorization process, it through a systematic literature review (SLR) that analyzesthe performance of the studies to conduct a meta-analysis. Further, the study search strategy was defined by thePICOC method (Population, Intervention, Comparison, Outcome, Context), supported by two research questionsand delimited in a search chain that allowed the collection of 332 research studies. These papers were filteredusing the PRISMA method and the determination of exclusion criteria, in total 46 papers have been selected forthe present study.From this SLR, an organizational structure has been obtained for semi-supervised models anda scheme for the classification process. In addition, the advantages and disadvantages of different learning typeshave been analyzed, evaluating their classification performance in each type of learning through a meta-analysis.This has determined that the models that present the best levels of performance are active learning model (0.88)and ensemble learning model (0.84) | en |
dcterms.abstract | La proliferación de documentos digitales en la red ha dado lugar a la búsqueda de patrones de información que permitan la categorización de documentos organizacionales para generar conocimiento en una determinada institución. Una de las técnicas de la Inteligencia Artificial para este efecto es la clasificación de texto, la cual para su aplicación emplea etiquetas (documentos categorizados) con modelos de entrenamiento supervisados (con etiquetas) o no-supervisados (sin etiquetas). Ambos modelos tradicionales con sus ventajas y desventajas, se han visto cohesionados en los modelos semi-supervisados que extraen las mejores cualidades de cada uno, sin embargo, el proceso de etiquetado implica recursos que buscan ser optimizados para mejorar la precisión de clasificación. Un análisis de los tipos de modelos semi-supervisados mostraría las fortalezas de su entrenamiento y la forma en que la estructura de cada uno de ellos incide en la precisión de su clasificación. En el presente estudio se propone una estructura de los tipos de modelos semi-supervisados en la clasificación de documentos, para de esta manera analizar las cualidades de cada uno de ellos en su proceso de categorización, esto a través de una SLR (Revisión de literatura sistemática) que analiza el rendimiento de los estudios para efectuar un meta-análisis. La estrategia de búsqueda de estudios ha sido definida con el método PICOC (Población, Intervención, Comparación, Salidas, Contexto), el cual, apoyado en dos preguntas de investigación, define una cadena de búsqueda que ha permitido recopilar 332 investigaciones, filtradas con el método de la declaración PRISMA y la determinación de criterios de exclusión, seleccionando así 46 investigaciones para el estudio. De la SLR se ha obtenido una estructura de organización para los modelos semi-supervisados y un esquema del proceso de clasificación. También, se ha analizado las ventajas y desventajas de los diferentes tipos de aprendizaje, evaluando su desempeño de clasificación en cada tipo de aprendizaje a través de un meta-análisis. Se determina que los modelos que presentan los mejores niveles de rendimiento son el aprendizaje activo (0.88) y ensamblado (0.84). | es |
dcterms.creator.author | Cevallos-Culqui, Alex | |
dcterms.creator.author | Pons, Claudia Fabiana | |
dcterms.creator.author | Rodríguez, Gustavo | |
dcterms.extent | 81-111 | |
dcterms.identifier.other | DOI: 10.4114/intartif.vol26iss72 | |
dcterms.identifier.other | ISSN: 1988-3064 | |
dcterms.identifier.url | https://journal.iberamia.org/index.php/intartif/article/view/871/189 | |
dcterms.isPartOf.issue | vol. 26, no. 72 | |
dcterms.isPartOf.series | Inteligencia Artificial. Revista Iberoamericana de Inteligencia Artificial | |
dcterms.issued | 2023-12 | |
dcterms.language | Inglés | |
dcterms.license | Attribution-NonCommercial 4.0 International (BY-NC 4.0) | |
dcterms.subject | text classification | en |
dcterms.subject | document classification | en |
dcterms.subject | semi-supervised models | en |
dcterms.subject | systematic review | en |
dcterms.subject | clasificación de texto | es |
dcterms.subject | clasificación documentos | es |
dcterms.subject | modelos semi-supervisado | es |
dcterms.subject | revisión sistemática | es |
dcterms.subject.materia | Ciencias de la Computación e Información |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Semi-supervised learning models-PDFA.pdf
- Tamaño:
- 4.76 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Documento completo
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 3.46 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: