Revista de Ciencias Sociales (RCS)

Vol. XXX, No. 1, Enero - Marzo 2024. pp. 452-469

FCES - LUZ ● ISSN: 1315-9518 ● ISSN-E: 2477-9431

 

Como citar: Villarreal-Torres, H., Ángeles-Morales, J., Marín-Rodriguez, W., y Cano-Mejía, J. (2024). Modelo de clasificación para la deserción estudiantil en las universidades públicas del Perú. Revista De Ciencias Sociales, XXX(1), 452-469.

 

Modelo de clasificación para la deserción estudiantil en las universidades públicas del Perú

 

Villarreal-Torres, Henry*

Ángeles-Morales, Julio**

Marín-Rodriguez, William***

Cano-Mejía, Jenny****

 

Resumen

 

Las tecnologías de información y comunicación cumplen un rol relevante en los diferentes campos del conocimiento, actualmente existe mayor capacidad para identificar patrones y anomalías en los datos de una organización utilizando la inteligencia artificial; el estudio tuvo como objetivo desarrollar un modelo de clasificación para la deserción estudiantil aplicando aprendizaje automático con el método autoML del framework H2O.ai, se ha tenido en cuenta la dimensionalidad de las características socioeconómicas y académicas. La metodología empleada fue de tipo predictivo y diseño no experimental, observacional y prospectivo; para ello, se aplicó un cuestionario de 20 ítems a 237 estudiantes de la Escuela de Posgrado matriculados en los programas de maestrías en educación. La investigación tuvo como resultado un modelo de aprendizaje automático supervisado, máquina de refuerzo de gradiente, para clasificar la deserción estudiantil, logrando así identificar los principales factores asociados que influyen en la deserción, obteniendo un coeficiente Gini del 92.20%, AUC del 96.10% y un LogLoss del 24.24% representando un modelo con desempeño eficiente. Se concluye que el modelo es apropiado por sus métricas de rendimiento, ofreciendo ventajas como trabajar con datos desequilibrados, validación cruzada y realizar predicciones en tiempo real.

 

Palabras clave: Aprendizaje automático; deserción estudiantil; educación superior; minería de datos; H2O.ai.

 

 

Classification model for student dropout in public universities in Peru

 

Abstract

 

Information and communication technologies play a relevant role in different fields of knowledge. Currently, there is a greater capacity to identify patterns and anomalies in an organization's data using artificial intelligence; The study aimed to develop a classification model for student dropout by applying machine learning with the autoML method of the H2O.ai framework, taking into account the dimensionality of socioeconomic and academic characteristics. The methodology used was predictive and non-experimental, observational and prospective in design; To this end, a 20-item questionnaire was applied to 237 students from the Graduate School enrolled in master's degree programs in education. The research resulted in a supervised machine learning model, gradient boosting machine, to classify student dropout, thus identifying the main associated factors that influence dropout, obtaining a Gini coefficient of 92.20%, AUC of 96.10% and a LogLoss of 24.24% representing a model with efficient performance. It is concluded that the model is appropriate for its performance metrics, offering advantages such as working with unbalanced data, cross validation and making predictions in real time.

 

Keywords: Machine learning; student attrition; higher education; data mining; H2O.ai.

 

 

Introducción

La educación es fundamental para el desarrollo y el bienestar de una sociedad, por tanto, los estudiantes son la razón de ser de cualquier institución educativa. El desarrollo social y económico de un país está directamente relacionado con el rendimiento académico de sus estudiantes (Mushtaq y Khan, 2012). En el 2014 la Ley Universitaria No. 30220, crea la Superintendencia de Educación Superior Universitaria (SUNEDU), organismo que implementó el modelo de licenciamiento institucional. Ante la exigencia de cumplimiento de las condiciones básicas de calidad, es una buena opción gestionar la educación con las tecnologías de información según la propuesta de Villarreal-Torres et al. (2021); y, Briñez (2021), para tener la información disponible en el momento oportuno.

La deserción universitaria, es un problema relacionado al estudiante como responsable directo, generando preocupación en sus directivos por conocer las probabilidades de no culminación de estudios, influyendo negativamente en el desarrollo académico y económico de la institución; motivo por el cual, se pretende identificar patrones de comportamiento en los estudiantes, mediante la minería de datos, analizando los factores socioeconómicos y académicos para implementar estrategias específicas que coadyuven a mantener una economía sostenible en el tiempo, evitando el alto índice de riesgo de abandono de estudios. Específicamente en el ámbito de las universidades, y particularmente en las escuelas de postgrado, resulta necesario cumplir con estándares de calidad en lo referente a la oferta del servicio educativo (Díaz-Landa, Meleán-Romero y Marín-Rodriguez, 2021).

En el Perú se ha incrementado significativamente antes y aún más después de la pandemia de Covid-19, es por ello, que las universidades públicas necesitan identificar e implementar programas para disminuir la deserción estudiantil (Valero et al. 2022).  Este problema se agudizo durante el Covid-19 ocasionando un impacto negativo en la mayoría de los sectores productivos, conduciendo a algunas instituciones educativas a implementar estrategias para revertir la situación de abandono de estudios (Moreno et al., 2021; Félix, Urrea y López, 2023; Villarreal-Torres et al., 2023). Por ello “son múltiples las aplicaciones de inteligencia artificial [que] utilizan técnicas de minería de datos para descubrir patrones importantes y obtener información útil de sistemas de información de registros académicos” (Díaz et al. 2022, p. 198).

El informe de la Organización para la Cooperación y el Desarrollo Económicos (Organisation for Economic Co-operation and Development [OECD], 2019), indica que el 39% de los estudiantes a tiempo completo que ingresan a un programa se gradúan dentro de la duración teórica; asimismo, la tasa promedio de finalización posterior a los tres años adicionales corresponde a un incremento del 67%. Por otra parte, el 12% de ingresantes a un programa a tiempo completo abandonan sus estudios antes del inicio del segundo; asimismo, muestra un incremento del 20% al final de la duración teórica y al 24% posterior a los tres años.

En el Perú, las cifras sobre la evolución de matrículas según la Superintendencia Nacional de Educación Superior (SUNEDU, 2020) en el nivel de pregrado durante el 2018, fue de 1.59 millones cifra que se ha reducido en 1.34 millones de estudiantes en el 2020, interpretado con un 15,7% de diferencia entre los periodos; en el caso, de posgrado se tiene una reducción de 27,7%, puesto que durante el 2018 se tuvo 131.9 mil y en el periodo 2020 se contó con 95.4 mil estudiantes matriculados. Según el Diario Oficial El Peruano (2021), se detalla que en las universidades licenciadas a nivel nacional indican que el porcentaje de interrupción de estudios ha decrecido en 4,7%; es decir, de un 16,2% ha disminuido a un 11,5% entre los semestres 2020-II y 2021-I.

La investigación estuvo enmarcada en la producción de un nuevo conocimiento mediante la propuesta del modelo de clasificación, además se corroboró la teoría de deserción estudiantil sostenida por Díaz (2008). El objetivo de la investigación fue desarrollar un modelo de clasificación de deserción en estudiantes de los programas de estudio de educación mediante aprendizaje automático y técnicas de minería de datos aplicando autoML de H2O.ai, a fin de que los estudiantes, con potencial de deserción, puedan ser identificados por las autoridades para tomar las medidas correctivas pertinentes.

 

1. Fundamentación teórica

1.1. Minería de datos

La minería de datos utiliza el análisis matemático y estadístico para encontrar patrones y tendencias en grandes conjuntos de datos. La exploración de datos tradicional no puede descubrir estos patrones debido a la complejidad o a las grandes cantidades de datos (Microsoft Learn, 2023). Utilizan métodos estadísticos y algoritmos de inteligencia artificial para encontrar patrones en conjuntos de datos masivos (Camborda, 2014). Sus métodos de clasificación, agrupación y predicción hacen que tenga éxito (Zárate-Valderrama et al., 2021). Dole y Rajurkar (2014), pronostican la culminación y el estado de aprobado/reprobado utilizando el algoritmo Naive Bayes y el árbol de decisión.

En definitiva, la minería de datos debe utilizarse con cuidado y responsabilidad para garantizar que se respeta el derecho a la privacidad de las personas y se obtengan conclusiones precisas y útiles. Es una técnica importante que ha transformado la forma en que las organizaciones gestionan y toman decisiones basadas en grandes cantidades de datos.

 

1.2. Aprendizaje automático

Kodelja (2019), sostiene que es un subconjunto de la inteligencia artificial; además, afirma que es aprendizaje y no otra cosa; mientras que otros -incluidos los filósofos- rechazan la afirmación que es un aprendizaje real, para ellos, el aprendizaje real es la forma más elevada del aprendizaje humano. Por su parte, Xu y Li (2014), manifiestan que es un método esencial para tratar los problemas de adquisición de conocimientos; se refiere a la construcción y el estudio de sistemas que pueden aprender de los datos.

Samuel (2000), lo define como el campo de estudio donde los ordenadores tienen la capacidad de aprender, sin ser programados explícitamente. Dwi, Prasetya y Pujianto (2018), sostienen que se enfoca en desarrollar un sistema que sea capaz de aprender de sus propios patrones sin intervención humana, su aplicación se encuentra en varios campos.

El aprendizaje automático, es la capacidad de los sistemas informáticos para aprender y evolucionar de forma autónoma a partir de datos a través del tiempo; el cual se está convirtiendo en una herramienta indispensable para la adquisición de conocimientos en diversas áreas; aunque con algunas limitaciones, sus aplicaciones son innovadoras y eficientes para la solución de problemas reales.

 

1.3. Tipos de aprendizaje automático

Jung (2022), describe dos tipos de aprendizaje automático; el primero, como aprendizaje supervisado, que emplea un conjunto de datos etiquetados para su predicción, se divide en regresión y clasificación; el segundo, como aprendizaje no supervisado, al conjunto de datos que no necesita etiquetas; permite a los analistas descubrir patrones de comportamientos o similitudes entre las características, solo se basa en la subdivisión o el agrupamiento (Chatterjee et al., 2023). Existiendo el aprendizaje por refuerzo, similar al aprendizaje no supervisado, puede evaluar la función de perdida; en estos casos, aprende de las experiencias de prueba y error dependiendo de la retroalimentación y su factor o agente para tener un desempeño eficiente (Sharmeela et al., 2023).

Es de vital importancia conocer las múltiples formas de aprendizaje automático y sus propias características, fortalezas y debilidades de cada una de ellas; en tal sentido, es esencial la selección del tipo de aprendizaje automático para desarrollar modelos de predicción en la solución de problemas originados en diversas ramas del conocimiento.

 

1.4. AutoML

AutoML, es el aprendizaje automático de las maquinas, Nagarajah y Poravi (2019), lo describen como un proceso que tiene la capacidad de elaborar modelos a la medida, reduciendo de manera considerable la intervención de las personas; además, de realizar el preprocesamiento de los datos, la ingeniería de variables, la construcción de modelos, la optimización de hiperparámetros y el análisis de los resultados de las predicciones y su respectiva evaluación.

El desarrollo del aprendizaje automático de máquinas ha permitido, en gran medida, agilizar las operaciones de desarrollo del aprendizaje de máquina que requieren mucho tiempo, pretendiendo reducir la demanda de los científicos de datos y tener la capacidad de construir aplicaciones de aprendizaje automático de buen rendimiento, sin necesidad de tener amplios conocimientos de estadística y aprendizaje de máquinas (Zöller y Huber, 2021).

Mediante la implementación del autoML, se puede lograr la automatización del proceso de desarrollo del aprendizaje automático, lo que a su vez hace posible producir aplicaciones de aprendizaje automático de alto rendimiento de una manera rápida y eficiente, sin la necesidad de tener amplios conocimientos de estadística e informática. Actualmente, el número de librerías desarrolladas ha aumentado significativamente, lo que hace posible que las organizaciones desplieguen soluciones innovadoras de una manera simple y eficaz.

 

1.5. Plataforma H2O.ai

LeDell y Poirier (2020), expresan que H2O es una plataforma de aprendizaje automático distribuido de código abierto, se creó para escalar a conjuntos de datos extremadamente grandes. Sus interfaces de programación de aplicaciones (API) están escritas en R, Python, Java y Scala. Los pasos para realizar el proceso de automatización mediante H2O.autoML son: La recopilación de datos, exploración de datos, preparación de datos, transformación de datos, selección del modelo, entrenamiento del modelo, ajustes de hiperparámetros y finalmente, la predicción (Ajgaonkar, 2022).

La plataforma H2O, es una herramienta que viene ganando popularidad para quienes trabajan con enormes conjuntos de datos y buscan automatizar el proceso de aprendizaje automático; además, cuenta con interfaces de programación de aplicaciones (API) haciéndola accesible para usuarios avanzados de la comunidad de aprendizaje automático.

 

1.6. Selección de características

Para el desarrollo de un modelo de aprendizaje automático, es necesario realizar la selección de características, tiene como finalidad identificar la interacción de las variables dependientes para tener el mejor desempeño predictivo; este proceso es relevante porque permite conocer las variables que aportan significativamente al modelo predictivo, permitiendo así, reducir el número de variables, tiempo, velocidad y despliegue; haciendo que el modelo sea menos complejo y más fácil de explicar (Haque, 2022).

Se tiene tres clases de métodos para la selección de características según Khun y Jhonson (2019): Los métodos intrínsecos, comprenden a los modelos basados en árboles y reglas, los modelos multivariados de regresión adaptativa y los modelos de regularización; los métodos de filtro, son simples y rápidos mediante un análisis supervisado determinan las características, son propensos a sobre seleccionar predictores en el modelo. Finalmente, los métodos de envoltura, que usan procedimientos de búsqueda iterativos, proporcionando subconjuntos de predictores para el modelo teniendo mayor eficacia en el rendimiento de la predicción.

El proceso de selección de características, es un paso esencial en la construcción de modelos de aprendizaje automático, donde se utilizan a menudo enfoques como las técnicas intrínsecas, de filtro y de envoltura, para identificar las variables que aportan significativamente al modelo predictivo; además, la selección de características tiene como propósito la reducción de recursos que conlleva a una adecuada comprensión e interpretación del modelo desarrollado. En grandes volúmenes de datos, la selección de características puede conllevar a resultados sesgados o incompletos.

 

1.7. Deserción estudiantil

Tinto (1982); y, Félix et al. (2023), definen la deserción como una situación en la que un estudiante no logra terminar su educación o se aleja de ella de manera temporal o permanente; por lo tanto, un desertor sería aquel que está inscrito en una institución de educación superior, pero no presenta actividad académica durante tres semestres académicos seguidos. González (2005), diferencia dos tipos de abandono en la educación superior universitaria; la primera, con respecto al tiempo (inicial, temprana y tardía); y la segunda, con respecto al espacio (institucional, interna y del sistema educativo).

Tinto (1989), afirma que durante el periodo de transición se producen los abandonos; específicamente, y tal como lo señalan Duche et al. (2020), la transición secundaria-universitaria, siendo los más frecuentes los abandonos voluntarios. Díaz (2008), presentó los modelos de análisis de la deserción estudiantil, con el propósito de analizar el fenómeno de la deserción inherente a la vida estudiantil universitaria, describiendo las teorías desde diversos puntos de vista:

a. Modelo psicológico: Indica los rasgos de personalidad que establecen las diferencias entre los estudiantes que culminan y abandonan sus estudios universitarios; se fundamenta en las propuestas de Fhisbein y Ajzen (1974), quienes sostienen la Teoría de la Acción Razonada; Ethington (1990), quien se basa en el Modelo de Elección Académica sostenido por Eccles, Adler y Meece (1984), para insertar teorías sobre conductas de logro, como el rendimiento académico que afecta al estudiante. Finalmente, Bean y Eaton (2001) fundamentan los procesos psicológicos con la integración académica y social sustentados en cuatro teorías psicológicas: Teoría de Actitud y Comportamiento; Teoría del Comportamiento de Copia, la Habilidad para Entrar y Adaptarse a un Nuevo Ambiente; la Teoría de Autoeficacia; y, la Teoría de Atribución.

b. Modelo sociológico: Hace énfasis en los factores externos de los estudiantes, los cuales influencian en la deserción estudiantil; Spady (1970), manifiesta que una de las causas de la deserción, es la integración social en la universidad, generada por las influencias, expectativas y demandas dadas en el medio familiar. Asimismo, propone seis predictores para la deserción estudiantil: Integración académica, integración social, estado socioeconómico, género, calidad de carrera y el promedio de cada semestre.

c. Modelo económico: Está basado en dos modelos: El primero, Costo/Beneficio, está relacionado a los beneficios sociales y económicos que perciben los estudiantes para permanecer en la universidad; el segundo, Focalización del Subsidio, está orientado a los estudiantes con bajos recursos o limitaciones para costear sus estudios (Cabrera, Nora y Castañeda, 1992; 1993; Bernal, Cabrera y Terenzini, 2000; St. John et al., 2000).

d. Modelo organizacional: Se fundamenta en la forma cómo la organización integra a los estudiantes (Berger, 2000; 2001; Kuh 2002).

e. Modelo de interacción: Sostiene que la permanencia en la institución está en función del grado de acoplamiento del estudiante con la institución (Tinto, 1982), se complementa con el modelo de Spady (1970), en el que se incorpora la teoría de intercambio de Nye (1976).

La deserción estudiantil en el sistema universitario, es un problema complejo ocasionado por diversos factores como sociales, económicos, personales, familiares, académicos, psicológicos, entre otros, desarrollados dentro de su entorno y experiencias; los cuales deben ser analizados desde diferentes puntos de vista con el propósito de brindar una solución integral y permita a los estudiantes finalizar sus estudios. La reducción de la deserción estudiantil puede lograrse desde un análisis de la personalidad, seguido de la integración social y académica, optimización de costos y beneficios brindados por el servicio educativo, hasta el grado de articulación o acoplamiento entre el estudiante y la institución.

 

1.8. Dimensiones de la deserción estudiantil

Las variables consideradas, con mayor frecuencia, en los modelos teóricos relacionados a la deserción estudiantil fueron consolidadas en el estudio realizado por Díaz (2008), se consideran cuatro categorías, las individuales (edad, género, grupo familiar e integración, social); las académicas (orientación profesional, desarrollo intelectual, rendimiento académico, métodos de estudios, procesos de admisión, grados de satisfacción de la carrera y carga académica); las institucionales (normativas académicas, financiamiento estudiantil, recursos universitarios, calidad del programa o carrera y relación con los profesores y pares); y las socioeconómicas (estrato socioeconómico, situación laboral del estudiante, situación laboral de los padres y nivel educacional de los padres).

 

2. Metodología

La metodología utilizada estuvo basada en el enfoque cuantitativo, en virtud al análisis y procesamiento de datos numéricos para detectar patrones y relaciones entre las variables de estudio; con respecto al tipo de investigación corresponde un estudio predictivo, cuya finalidad es desarrollar un modelo de predicción mediante las técnicas de minería de datos, aprendizaje automático y estadísticas. Así mismo, el diseño fue no experimental, observacional y prospectivo (Supo, 2020).

El conjunto de datos fue obtenido de dos fuentes de información, en primer lugar, mediante la aplicación de un cuestionario como instrumento, que contiene 20 ítems agrupados en cuatro dimensiones, aplicándose a 237 participantes de la Escuela de Posgrado de la Universidad Nacional José Faustino Sánchez Carrión matriculados en los programas de maestrías en educación, seleccionados mediante muestreo aleatorio simple; en segundo lugar, se recopilaron datos del registro de evaluaciones mediante la observación. A continuación, se presentan los ítems en el Cuadro 1.

Cuadro 1

Instrumento de recolección de datos para los participantes

N

Pregunta

Tipo

P01

Rendimiento académico en secundaria          

Ordinal

P02

Asignaturas desaprobadas en secundaria

Ordinal

P03

Repitencia de año en secundaria         

Dicotómico

P04

Rendimiento académico en pregrado                       

Ordinal

P05

Asignaturas desaprobadas en pregrado                         

Ordinal

P06

Sexo                              

Dicotómico

P07

Rango edad

Ordinal

P08

Estado civil

Ordinal

P09

Empleado adecuadamente

Ordinal

P10

Número de hijos        

Ordinal

P11

Ingreso familiar                                     

Ordinal

P12

Motivación para el estudio

Dicotómico

P13

Situación económica

Ordinal

P14

Financiamiento de estudios

Dicotómico

P15

Disponibilidad de tiempo de estudio

Ordinal

P16

Nivel de estrés              

Ordinal

P17

Infraestructura adecuada

Ordinal

P18

Equipamiento y mobiliario adecuado

Ordinal

P19

Asignaturas pertinentes

Ordinal

P20

Nivel de docentes

Dicotómico

 

Fuente: Elaboración propia, 2023.

En base a la revisión de la literatura que fundamenta la deserción estudiantil, se ha considerado la teoría de Díaz (2008), quien adaptó las teorías propuestas al contexto de la realidad peruana elaboradas por Spady (1970); y, Tinto (1989), en cuatro factores, como se detalla en la Tabla 1.

Tabla 1
Descripción ítems según factores propuesta de Díaz (2008)

N

Factores

Ítems

Inicio

Final

01

Académicos

01

05

02

Individuales

06

12

03

Ambientales

13

16

04

Institucionales

17

20

 

Fuente: Elaboración propia, 2023.

Para el desarrollo del modelo, se utilizó el lenguaje R Statistical Software (v4.2.2; R Core Team, 2022) y con el entorno de desarrollo R Studio (v2022.12.0 Build 353; RStudio Team, 2022) ejecutado desde el sistema operativo de escritorio Windows 11 (x64 Build 22621); así mismo, se empleó la plataforma H20.ai para la generación del modelo de clasificación a través del paquete, H2O (v 3.38.0.1; Fryda et al., 2022). Para la reducción de la dimensionalidad mediante la selección de características se utilizaron los paquetes: Familiar (v1.4.1; Zwanenburg y Löck, 2021); Information (v0.0.9; Larsen, 2016); Boruta (v8.0.0; Kursa y Rudnicki, 2010); Regularized Random Forest, RRF (v1.9.4; Deng, 2013); y, FSinR (v2.0.5; Aragón-Royón et al., 2020).

 

3. Resultados y discusión

A continuación, se presenta el análisis descriptivo de las opiniones emitidas por los participantes a través del cuestionario, según la Tabla 2, los resultados indican variabilidad en las respuestas. Así mismo, para desarrollar estos modelos, se definieron variables independientes, que corresponde a 20 ítems del instrumento y como variable dependiente, la deserción estudiantil; además, se ha considerado dos aspectos de vital importancia: La selección de características y el porcentaje para la partición del conjunto de datos para entrenamiento, validación y prueba para cada uno de los modelos.

Para la selección de las características se utilizaron diferentes algoritmos, obteniendo dos conjuntos de variables en base a las coincidencias o similitudes en común; el primer conjunto, conformado por 11 variables (P01, P02, P03, P04, P09, P10, P12, P13, P14, P16, P20); y el segundo conjunto, conformado por las cinco variables (P07, P11, P17, P18, P19), haciendo un total de 16 variables.

Tabla 2
Análisis descriptivo del conjunto de datos de los participantes

N

Etiq.

Descripción

Min

Max

Mean

DE

01

P01

Rendimiento académico en secundaria          

1

5

3.633

0.977

02

P02

Asignaturas desaprobadas en secundaria

1

4

1.578

0.786

03

P03

Repitencia de año en secundaria         

1

2

1.932

0.251

04

P04

Rendimiento académico en pregrado                        

2

5

3.443

0.879

05

P05

Asignaturas desaprobadas en pregrado                         

1

3

1.266

0.530

06

P06

Sexo                              

1

2

1.624

0.485

07

P07

Rango edad

1

3

2.004

0.805

08

P08

Estado civil

1

5

1.975

0.786

09

P09

Empleado adecuadamente

1

2

1.831

0.375

10

P10

Número de hijos        

1

3

1.916

0.714

11

P11

Ingreso familiar                                     

2

5

3.013

0.773

12

P12

Motivación para el estudio

1

2

1.038

0.192

13

P13

Situación económica

2

5

3.194

0.773

14

P14

Financiamiento de estudios

1

2

1.068

0.251

15

P15

Disponibilidad de tiempo de estudio

1

5

3.118

1.477

16

P16

Nivel de estrés              

1

5

2.970

1.418

17

P17

Infraestructura adecuada

1

5

3.084

1.369

18

P18

Equipamiento y mobiliario adecuado

1

5

2.924

1.376

19

P19

Asignaturas pertinentes

1

5

2.911

1.419

20

P20

Nivel de docentes

1

5

3.650

1.012

 

Fuente: Elaboración propia, 2023.

Posteriormente, se establecieron los parámetros para la invocación del método AutoML del objeto H2O, considerando como parámetros de datos, el conjunto de las variables independientes y luego la variable objetivo o de destino, definida como la variable dependiente; el parámetro de parada o de finalización, se consideró max_models = 100; además, de la opción balance_classes = TRUE.

Con esta configuración se presentan en la Tabla 3, los resultados de las 10 ejecuciones o iteraciones realizadas según la configuración definida; se muestra en síntesis los principales modelos de aprendizaje automático con mejores métricas de entrenamiento en comparación con otros modelos ubicados en posiciones inferiores; por ejemplo, Extremely Randomized Trees (XRT) y Distributed Random Forest (DRF), Generalized Linear Model (GLM). A continuación, se presentan las métricas del proceso de entrenamiento de cada uno de los modelos generados automáticamente.

Tabla 3
Modelos de aprendizaje automático según el tamaño de los conjuntos de datos

N

Modelo

Ítems

Conjunto de Datos

Entrenamiento

Prueba

Validación

01

DeepLearning Grid

16

70

30

0

02

DeepLearning Grid

11

70

30

0

03

GBM Grid

16

70

15

15

04

DeepLearning Grid

11

70

15

15

05

GBM Grid

16

80

20

0

06

GBM Grid

11

80

20

0

07

GBM Grid

16

60

40

0

08

GBM Grid

11

60

40

0

09

GBM Grid

16

75

25

0

10

GBM Grid

11

75

25

0

 

Fuente: Elaboración propia, 2023.

Como se aprecia en la Tabla 4, las puntuaciones obtenidas en cada métrica son muy similares y significativas durante el proceso de entrenamiento y validación, se observa valores óptimos de rendimiento en cada modelo según el tamaño de los conjuntos de datos de la Tabla 3; realizándose posteriormente, las pruebas para obtener las métricas de rendimiento de cada uno de los modelos indicados.

Tabla 4
Métricas de rendimiento de los modelos de entrenamiento y validación

N

Modelo

Ítems

AUC

LOGLOS

AUCPR

01

DeepLearning Grid

16

0.981685

0.389653

0.956428

02

DeepLearning Grid

11

0.981136

0.214359

0.951164

03

GBM Grid

16

0.980220

0.183851

0.943741

04

DeepLearning Grid

11

0.982784

0.196832

0.954476

05

GBM Grid

16

0.972311

0.258593

0.923799

06

GBM Grid

11

0.972603

0.204378

0.932085

07

GBM Grid

16

0.974163

0.246842

0.915569

08

GBM Grid

11

0.972010

0.207276

0.920860

09

GBM Grid

16

0.977618

0.218077

0.925325

10

GBM Grid

11

0.972982

0.201235

0.923862

 

Fuente: Elaboración propia, 2023.

Los modelos de clasificación tienen una variedad de métricas de rendimiento entre las de mayor relevancia se tiene el coeficiente de Gini, el cual es empleado para medir la calidad del modelo de predicción, teniendo como interpretación, que una valoración de cero significa una igualdad perfecta, es decir, se tiene un modelo deficiente; cuanto tiene un valor cercano a la unidad, se presenta como desigualdad máxima, y se considera un clasificador perfecto.

La Tabla 5, contiene las métricas de las ejecuciones y pruebas realizadas con cada uno de los modelos generados automáticamente, como se evidencia las métricas son similares a diferencia del tercero y cuarto modelo que se encuentran sobre ajustados, debido al número de observaciones particionadas en tres conjuntos de datos. Asimismo, se muestra un mejor desempeño en las métricas de los modelos con menor número de ítems; en este sentido, por el principio de parsimonia, se opta por aquellos con 11 ítems según los algoritmos utilizados para la selección de características, permitiendo beneficios para su futura implementación. Se observa ligeramente una mejor prestación en el décimo modelo Gradient Boosting Machine, seguido por el segundo modelo DeepLearning.

Tabla 5
Métricas de rendimiento de los modelos de pruebas

N

Modelo

Ítems

GINI

AUC

AUCPR

LOGLOSS

01

DeepLearning Grid

16

0.895981

0.947991

0.913763

0.850491

02

DeepLearning Grid

11

0.865248

0.932624

0.905851

0.546854

03

GBM Grid

16

1.000000

1.000000

1.000000

0.025920

04

DeepLearning Grid

11

1.000000

1.000000

1.000000

0.044860

05

GBM Grid

16

0.915633

0.957816

0.911510

0.312979

06

GBM Grid

11

0.935484

0.967742

0.937704

0.259712

07

GBM Grid

16

0.943012

0.971506

0.919590

0.293444

08

GBM Grid

11

0.932157

0.966079

0.925879

0.217350

09

GBM Grid

16

0.912281

0.956140

0.922686

0.270146

10

GBM Grid

11

0.898246

0.949123

0.911629

0.295948

 

Fuente: Elaboración propia, 2023.

El Gráfico I, contempla las variables ordenadas de mayor a menor según la importancia en la predicción del modelo, en base a los valores porcentuales que se encuentran escalados al 100%. Se evidencia una influencia fuerte en la experiencia de los participantes en el nivel de secundaria: Rendimiento académico (29,65%), asignaturas reprobadas (22,67%) y repetición de año (13,65%); el desempeño de los docentes (14,03%); en menor relevancia se encuentran los aspectos relacionados a estrés de la persona (6,35%), rendimiento en pregrado (5,99%), el número de hijos (3,40%), motivación (2,23%), situación económica (1,28%), trabajo relacionado a su carrera (0,62%), y finalmente, el financiamiento de sus estudios (0,10%).

 

 

 

Fuente: Elaboración propia, 2023.

Gráfico I: Importancia de las variables en el modelo de clasificación

La exactitud es una métrica para determinar las predicciones correctas como proporción al total de predicciones realizadas, una puntuación cercana a la unidad representa un rendimiento óptimo. De la Tabla 6, se puede obtener una precisión equivalente a un 92%, es decir, el modelo tiene una capacidad de predicción puesto que de 100 observaciones alcanza predecir 92 casos exitosamente; para la sensibilidad se tiene un 90%, indicando una predicción que, de 100 casos, 90 son exitosos para la clase positiva; finalmente, para la especificidad, identifica un 100% de los casos para predecir la clase negativa.

Tabla 6
Matriz de confusión del modelo GBM generado

Valores Predicción

Reales

Error

Ratio

Positivo

Negativo

Positivo

38

0

0.000

= 0 / 38

Negativo

4

11

0.267

= 4 / 15

Total

42

11

0.075

= 4 / 53

 

Fuente: Elaboración propia, 2023.

El área bajo la curva, es una métrica para evaluar la capacidad del modelo de clasificación, permitiendo diferenciar entre los verdaderos positivos y falsos positivos; un valor cercano a la unidad, se considera un modelo perfecto. A diferencia de la métrica área bajo la curva precisión – recuperación, no considera los verdaderos negativos muy utilizado en conjunto de datos desequilibrados. La métrica de pérdida logarítmica analiza la aproximación de los valores predichos de un modelo y las valoraciones del objetivo real, donde una asignación cercana a cero significa que el modelo proporciona correctamente la probabilidad.

La curva ROC, es un gráfico que representa la relación entre verdaderos positivos (sensibilidad) y falsos positivos (especificidad), el Gráfico II, demuestra una curva cercana a la esquina superior izquierda, indicando así un rendimiento óptimo. Cabe precisar que, cuando la curva se aproxima a la diagonal de 45° o línea base, será menos precisa correspondiendo un desempeño deficiente. Asimismo, el lado inferior izquierdo del gráfico representa una menor tolerancia a los falsos positivos; mientras que el lado superior derecho representa una mayor tolerancia a los falsos positivos.

 

Fuente: Elaboración propia, 2023.

Gráfico II: Gráfico ROC del modelo de clasificación GBM

El Gráfico III, muestra el comportamiento del modelo de clasificación GBM mediante la curva de aprendizaje, presenta una perdida logarítmica en el conjunto de datos de entrenamiento y validación; además se visualiza que las curvas son estables al tener un número superior a los 50 árboles, es decir, al agregar más instancias al modelo, este no mejoraría mucho su desempeño o rendimiento.

 

 

Fuente: Elaboración propia, 2023.

Gráfico III: Curva de aprendizaje del modelo de clasificación GBM

En síntesis, el modelo GBM (Gradient Boosting Machine) es un método de aprendizaje automático supervisado que se utiliza para realizar la clasificación de problemas de aprendizaje automático. Está construido utilizando árboles de decisión. El modelo GBM generado consta de 51 árboles internos, con un tamaño correspondiente a 8,910 bytes.

El árbol tiene una profundidad mínima de 4 y una profundidad máxima de 6, con una profundidad promedio de 5.29. El número mínimo de hojas es de 7 y el número máximo es de 13, con un promedio de 9.24 hojas. Esta configuración del modelo GBM indica que los árboles de decisión internos tienen una profundidad razonable y un número moderado de hojas. Esto significa que el modelo GBM presenta una buena capacidad de ajuste y puede proporcionar una buena clasificación para los datos evidenciado por las métricas de rendimiento.

Al contrastar los resultados obtenidos con la fundamentación teórica, se puede indicar que, el modelo de clasificación ha sido posible mediante la utilización de técnicas de minería de datos para identificar patrones y tendencias que pueden ser útiles para predecir a los estudiantes con riesgo de deserción. Sin embargo, es solo una herramienta y es necesaria la intervención humana para proporcionar el apoyo emocional y académico a los estudiantes en riesgo, coincidiendo con lo indicado por Zárate-Valderrama et al. (2021); Jung (2022); y, Microsoft Learn (2023), se indica también, que Dole y Rajurkar (2014), desarrollaron un modelo de clasificación binaria mediante Naive de Bayes; en el presente estudio, fue un modelo de clasificación GBM.

El desarrollo del modelo ha conllevado los procesos de entrenamiento, validación y prueba con diversos conjuntos de datos obteniendo métricas de rendimiento eficaces concordando con el estudio de Xu y Li (2014); además, se coincide con las investigaciones realizadas por Samuel (2000); y, Dwi et al. (2018), sobre la capacidad de los sistemas de información para aprender mediante los algoritmos AutoML y el uso de la plataforma H2O.ai expresado por LeDell y Poirier (2020).

Debido a la complejidad de la deserción estudiantil, esta fue analizada íntegramente mediante los cinco modelos propuestos por Díaz (2008), considerándose como base para la elaboración de los instrumentos de recolección de datos, consolidándose en 20 ítems; de los cuales, fueron utilizados sólo 11 ítems para el modelo de clasificación debido al proceso de selección de características (Haque, 2022), siendo los ítems de mayor relevancia P01, P02, P20 y P03.

 

Conclusiones

En vista de los resultados, se evidencia el desarrollo de un modelo GBM para la clasificación de la deserción estudiantil utilizando la plataforma H2O.ai y AutoML, se puede concluir que presenta un rendimiento eficiente debido a las métricas de precisión, sensibilidad y especificidad para identificar patrones en los estudiantes con riesgo de abandonar sus estudios; ofrece ventajas como la capacidad de trabajar con datos desbalanceados, la capacidad de mejorar los resultados mediante la sintonización de los parámetros, el uso de la validación cruzada y la capacidad de realizar predicciones en tiempo real, considerándose como herramienta útil para la toma de decisiones.

Un aspecto relevante de la investigación fue la transversalidad, en primera instancia el aprendizaje automático, tuvo la capacidad de utilizar los algoritmos para extrapolar los conocimientos adquiridos en un conjunto de datos; para el caso de la minería de datos, esta técnica ha permitido identificar patrones en los datos dentro del contexto de la educación superior universitaria, permitiendo a los usuarios compartir y reutilizar conocimientos adquiridos y mejores prácticas en otras áreas del conocimiento.

Respecto al aporte científico, la investigación es significativa y se presenta desde diferentes perspectivas; desde el punto de vista teórico, permite conocer y comprender los factores que influyen en la deserción de estudiantes contribuyendo de manera general al conocimiento en el campo de la inteligencia artificial y el aprendizaje automático; desde el punto de vista práctico, las instituciones de educación superior pueden implementar estrategias y programas de retención a los estudiantes en riesgo y evitar el abandono de los estudios.

Las limitaciones a considerar en el desarrollo de un modelo de clasificación es el tamaño de conjunto de datos, la selección de características, la discretización de las variables, datos desbalanceados, dichos factores conllevan a sesgos y predicciones inexactas; por otra parte, el modelo desarrollado funciona para un contexto especifico debido a la influencia de las variables independientes en la deserción estudiantil, las cuales pueden cambiar con el tiempo o entorno.

Las futuras líneas de investigación a desarrollar pueden incluir otros tipos de aprendizaje automático como aprendizaje profundo, ensamblajes, entre otros, así como la incorporación de conjuntos de datos no estructurados; además, se pueden incluir otras características y/o factores que influyen en la deserción estudiantil y que varían dependiendo del entorno. También se puede considerar estudios sobre la efectividad de las intervenciones basadas en las predicciones del modelo de clasificación.

 

Referencias bibliográficas

Ajgaonkar, S. (2022). Practical automated machine learning using H2O.ai: Discover the power of automated machine learning, from experimentation through to deployment to production. Packt Publishing.

Aragón-Royón, F., Jiménez-Vílchez, A., Arauzo-Azofra, A., y Benitez, J. (2020). FSinR: An exhaustive package for feature selection. arXiv: 2002. 10330.
https://doi.org/10.48550/arXiv.2002.10330

Bean, J., y Eaton, S. B. (2001). The psychology underlying successful retention practices. Journal of College Student Retention: Research, Theory & Practice, 3(1), 73-89. https://doi.org/10.2190/6R55-4B30-28XG-L8U0

Berger, J. B. (2000). Organizational behavior in higher education and student outcomes. In J. C. Smart (Ed.), Higher Education: Handbook of theory and research (Vol. XV, pp. 268-338). Agathon Press.

Berger, J. B. (2001). Understanding the organizational nature of student persistence: Empirically based recommendations for practice. Journal of College Student Retention: Research, Theory and Practice, 3(1), 3-21. https://doi.org/10.2190/3K6A-2REC-GJU5-8280

Bernal, E. M., Cabrera, A. F., y Terenzini, P. T. (2000). The relationship between race and socioeconomic status (SES): Implications for institutional research and admissions policies. Removing Vestiges: Research-Based Strategies to Promote Inclusion, (3), 6-19.

Briñez, M. E. (2021). Tecnología de información: ¿Herramienta potenciadora para gestionar el capital intelectual? Revista de Ciencias Sociales (Ve), XXVII(1), 180-192. https://doi.org/10.31876/rcs.v27i1.35305 

Cabrera, A. F., Nora, A., y Castañeda, M. B. (1992). The role of finances in the persistence process: A structural model. Research in Higher Education, 33(5), 571-593. https://doi.org/10.1007/BF00973759

Cabrera, A. F., Nora, A., y Castañeda, M. B. (1993). College persistence: Structural Equations modelling test of Integrated model of student retention. Journal of Higher Education, 64(2), 123-320. https://doi.org/10.2307/2960026

Camborda, M. G. (2014). Aplicación de árboles de decisión para la predicción del rendimiento académico de los estudiantes de los primeros ciclos de la carrera de Ingeniería Civil de la Universidad Continental [Tesis de maestría, Universidad Nacional del Centro del Perú]. http://repositorio.uncp.edu.pe/handle/20.500.12894/1477

Chatterjee, P., Yazdani, M., Fernández-Navarro, F., y Pérez-Rodríguez, J. (Eds.) (2023). Machine learning algorithms and applications in engineering. CRC Press. https://doi.org/10.1201/9781003104858

Deng, H. (2013). Guided Random Forest in the RRF Package. ArXiv: 1306.0237. https://doi.org/10.48550/arXiv.1306.0237

Diario Oficial del Bicentenario El Peruano (9 de noviembre de 2021). Tasa de deserción en educación universitaria. El Peruano. https://elperuano.pe/noticia/132960-tasa-de-desercion-en-educacion-universitaria-se-redujo-a-115

Díaz, B., Marín, W., Lioo, F., Baldeos, L., Villanueva, D., y Ausejo, J.  (2022). Deserción de estudiantes, factores asociados con árboles de decisión: Caso Escuela de Postgrado de una Universidad pública en Perú. Risti: Revista Ibérica de Sistemas e Tecnologias de Informação, (E-53), 197-211. https://www.risti.xyz/issues/ristie53.pdf

Díaz, C. (2008). Modelo conceptual para la deserción estudiantil universitaria chilena. Estudios Pedagógicos, XXXIV(2), 65-86. https://dx.doi.org/10.4067/S0718-07052008000200004

Díaz-Landa, B., Meleán-Romero, R., y Marín-Rodriguez, W. (2021). Rendimiento académico de estudiantes en Educación Superior: Predicciones de factores influyentes a partir de árboles de decisión. Telos: Revista de Estudios Interdisciplinarios en Ciencias Sociales, 23(3), 616-639. https://doi.org/10.36390/telos233.08

Dole, L., y Rajurkar, J. (2014). A decision support system for predicting student performance. International Journal of Innovative Research in Computer and Communication Engineering, 2(12), 7232-7237. https://ijircce.com/admin/main/storage/app/pdf/GE1YcjUwFseBETuax9LEymgN04TtdLS7TGEfmMgr.pdf

Duche, A. B., Paredes, F. M., Gutiérrez, O. A., y Carcausto, L. C. (2020). Transición secundaria-universidad y la adaptación a la vida universitaria. Revista de Ciencias Sociales (Ve), XXVI(3), 244-258. https://doi.org/10.31876/rcs.v26i3.33245

Dwi, M., Prasetya, A., y Pujianto, U. (2018). Technology acceptance model of student ability and tendency classification system. Bulletin of Social Informatics Theory and Application, 2(2), 47-57. https://doi.org/10.31763/businta.v2i2.113

Eccles, J., Adler, T., y Meece, J. L. (1984). Sex differences in achievement: A test of alternate theories. Journal of Personality and Social Psychology, 46(1), 26-43. https://doi.org/10.1037/0022-3514.46.1.26

Ethington, C. A. (1990). A psychological model of student persistence. Research in Higher Education, 31(3), 279-293. https://doi.org/10.1007/BF00992313

Félix, A. V., Urrea, M. L., y López, S. (2023). Abandono escolar de alumnos universitarios en la carrera de Derecho y Ciencias Sociales. Revista de Ciencias Sociales (Ve), XXIX(2), 242-254. https://doi.org/10.31876/rcs.v29i2.39974

Fishbein, M., y Ajzen, I. (1974). Attitudes toward objects as predictors of simple and multiple behavioural criteria. Psycological Review, 81, 59-74. https://doi.org/10.1037/h0035872

Fryda, T., LeDell, E., Gill, N., Aiello, S., Fu, A., Candel, A., Click, C., Kraljevic, T., Nykodym, T., Aboyoun, P., Kurka, M., Malohlava, M., Poirier, S., y Wong, W. (2022). H2O: R Interface for the 'H2O' Scalable Machine Learning Platform. R package version 3.38.0.1. https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/index.html

González, L. E. (2005). Estudio sobre la repitencia y deserción en la educación superior chilena. Instituto Internacional para la Educación Superior en América Latina y el Caribe, IESALC – UNESCO. https://unesdoc.unesco.org/ark:/48223/pf0000140087

Haque, M. A. (2022). Feature Engineering & Selection for Explainable Models: A second course for data scientists. LULU Internacional.

Jung, A. (2022). Machine Learning: The basics. Springer. https://doi.org/10.1007/978-981-16-8193-6

Khun, M., y Jhonson, K. (2019). Feature Engineering and Selection: A Practical Approach for Predictive Models. Chapman and Hall/CRC. https://doi.org/10.1201/9781315108230

Kodelja, Z. (2019). Is machine learning real learning? CEPS Journal, 9(3), 11-23. https://doi.org/10.26529/cepsj.709

Kuh, G. D. (2002). Organizational culture and student persistence: Prospects and puzzles. Journal of College Student Retention: Research, Theory & Practice, 3(1), 23-39. https://doi.org/10.2190/U1RN-C0UU-WXRV-0E3M

Kursa, M. B., y Rudnicki, W. R. (2010). Feature selection with the Boruta Package. Journal of Statistical Software, 36(11), 1-13. https://doi.org/10.18637/jss.v036.i11

Larsen, K. (2016). Data Exploration with Information Theory (Weight-of-Evidence and Information Value). R package version 0.0.9. https://CRAN.R-project.org/package=Information

LeDell, E., y Poirier, S. (2020). H2O AutoML: Scalable Automatic Machine Learning. 7th ICML Workshop on Automated Machine Learning. https://www.automl.org/wp-content/uploads/2020/07/AutoML_2020_paper_61.pdf

Ley No. 30220 de 2014. Ley Universitaria. 3 de julio de 2014.

Microsoft Learn (23 de diciembre de 2023). Conceptos de minería de datos. Microsoft Learn. https://learn.microsoft.com/es-es/analysis-services/data-mining/data-mining-concepts?view=asallproducts-allversions

Moreno, F. O., Ochoa, F. A., Mutter, K. J., y Vargas, E. C. (2021). Estrategias pedagógicas en entornos virtuales de aprendizaje en tiempos de pandemia por Covid-19. Revista de Ciencias Sociales (Ve), XXVII(4), 202-213. https://doi.org/10.31876/rcs.v27i4.37250

Mushtaq, I., y Khan, S. N. (2012). Factors affecting students’ academic performance. Global Journal of Management and Business Research, 12(9), 17-22. https://journalofbusiness.org/index.php/GJMBR/article/view/100221

Nagarajah, T., y Poravi, G. (2019). A Review on Automated Machine Learning (AutoML) Systems. IEEE 5th International Conference for Convergence in Technology (I2CT), Bombay, India. https://doi.org/10.1109/i2ct45611.2019.9033810

Nye, J. S. (1976). Independence and Interdependence. Foreign Policy, (22), 130-161. https://doi.org/10.2307/1148075

Organisation for Economic Co-operation and Development - OECD (2019). Education at a Glance 2019. OECD Publishing. https://doi.org/10.1787/f8d7880d-en

R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

RStudio Team (2022). RStudio: Integrated Development for R. RStudio, http://www.rstudio.com/

Samuel, A. L. (2000). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 44(1.2), 211-229. https://doi.org/10.1147/rd.441.0206

Sharmeela, C., Sanjeevikumar, P., Sivaraman, P., y Joseph, M. (2023). IoT, machine learning and blockchain technologies for renewable energy and modern hybrid power systems. Routledge.

Spady, W. G. (1970). Dropouts from higher education: An interdisciplinary review and synthesis. Interchange, 1, 64-85. https://doi.org/10.1007/BF02214313

St. John, E. P., Cabrera, A. E., Nora, A., y Asker, E. H. (2000). Economic influences on persistence reconsidered: How can finance research inform the reconceptualization of persistence models? In J. M. Braxton (Ed.), Reworking the student departure puzzle: New theory and research on college student retention (pp. 29-47). Vanderbilt University Press.

Superintendencia Nacional de Educación Superior Universitaria - SUNEDU (2020). II Informe bienal sobre la realidad universitaria en el Perú. SINEDU. https://cdn.www.gob.pe/uploads/document/file/1230044/Informe%20Bienal.pdf

Supo, J. (2020). Metodología de la Investigación Científica: Para las Ciencias de la Salud y las Ciencias Sociales. Independently published.

Tinto, V. (1982). Limits of theory and practice of student attrition. Journal of Higher Education, 53(6), 687-700. https://doi.org/10.2307/1981525

Tinto, V. (1989). Definir la deserción: Una cuestión de perspectiva. Revista de Educación Superior, (71), 1-9. http://publicaciones.anuies.mx/revista/71/1/3/es/definir-la-desercion-una-cuestion-de-perspectiva

Valero, J. E., Navarro, Á. F., Larios, A. C., y Julca, J. D. (2022). Deserción universitaria: Evaluación de diferentes algoritmos de Machine Learning para su predicción. Revista de Ciencias Sociales (Ve), XXVIII(3), 362-375. https://doi.org/10.31876/rcs.v28i3.38480

Villarreal-Torres, H., Ángeles-Morales, J., Marín-Rodriguez, W., Andrade-Girón, D., Carreño-Cisneros, E., Cano-Mejía, J., Mejía-Murillo, C., Boscán-Carroz, M. C., Flores-Reyes, G., y Cruz-Cruz, O. (2023). Development of a classification model for predicting student payment behavior using artificial intelligence and data science techniques. EAI Endorsed Transactions on Scalable Information Systems, 10(5). https://doi.org/10.4108/eetsis.3489

Villarreal-Torres, H. O., Marín-Rodriguez, W. J., Ángeles-Morales, J. C., y Cano-Mejía, J. E. (2021). Gestión de Tecnología de Información para universidades peruanas aplicando computación en la nube. Revista Venezolana de Gerencia, 26(E-6), 665-679. https://doi.org/10.52080/rvgluz.26.e6.40

Xu, W., y Li, W. (2014). Granular computing approach to two-way learning based on formal concept analysis in Fuzzy Datasets. IEEE Transactions on Cybernetics, 46(2), 366-379. https://doi.org/10.1109/tcyb.2014.2361772

Zárate-Valderrama, J., Bedregal-Alpaca, N., y Cornejo-Aparicio, V. (2021). Modelos de clasificación para reconocer patrones de deserción en estudiantes universitarios. Ingeniare. Revista Chilena de Ingeniería, 29(1), 168-177. http://dx.doi.org/10.4067/S0718-33052021000100168  

Zöller, M.-A., y Huber, M. F. (2021). Benchmark and survey of automated machine learning frameworks. Journal of Artificial Intelligence Research, 70, 409-472. https://doi.org/10.1613/jair.1.11854

Zwanenburg, A., y Löck, S. (2021). Familiar: End-to-End Automated Machine Learning and Model Evaluation. https://cran.r-project.org/web/packages/familiar/familiar.pdf 



* Doctor en Ingeniería Informática y de Sistemas. Magíster en Ingeniería Informática y de Sistemas. Ingeniero Informático y de Sistemas. Docente Principal en la Universidad San Pedro, Chimbote, Perú. E-mail: henry.villarreal@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-5989-4534

 

** Doctor en Ingeniería Industrial. Magister en Administración de Empresas y Negocios (MBA). Ingeniero Industrial. Docente Principal en la Universidad San Pedro, Chimbote, Perú. E-mail: julio.angeles@usanpedro.edu.pe ORCID: https://orcid.org/0000-0002-7470-8154

 

*** Doctor en Administracion. Magister en Administración Estratégica. Ingeniero Informático. Docente en la Universidad Nacional José Faustino Sánchez Carrión, Huacho, Lima, Perú.  Investigador RENACYT. E-mail: wmarin@unjfsc.edu.pe ORCID: https://orcid.org/0000-0002-0861-9663 (Autor de vorrespondencia)

 

**** Doctora en Gestión y Ciencias de la Educación. Magister en Obstetricia. Licenciada en Obstetricia. Docente Principal en la Universidad San Pedro, Chimbote, Perú. Investigadora RENACYT. E-mail: jenny.cano@usanpedro.edu.pe ORCID: https://orcid.org/0000-0001-5638-972X

 

 

Recibido: 2023-09-16                · Aceptado: 2023-12-05