sábado, 5 julio 2025

Investigadores andaluces logran aumentar un 70% la velocidad de entrenamiento de los modelos de IA

La Junta financia este proyecto de la Universidad de Cádiz, que permitiría analizar grandes volúmenes de información en campos como la medicina, la industria o las finanzas

La Consejería de Universidad, Investigación e Innovación ha financiado un proyecto de investigación llevado a cabo por el departamento de Ingeniería Informática de la Universidad de Cádiz que ha creado REDIBAGG, un método que acelera el entrenamiento de modelos de inteligencia artificial hasta un 70%, al utilizar menos datos, pero sin perder precisión. La técnica tiene potencial para analizar grandes volúmenes de información en campos tan diversos como la medicina, la industria o las finanzas.

La herramienta está diseñada para trabajar con grandes volúmenes de información que se utilicen para tareas de clasificación, es decir, situaciones en las que los algoritmos deben elegir entre varias opciones concretas. Así, por ejemplo, en salud podría acelerar sistemas de diagnóstico automático sin sacrificar fiabilidad, en industria serviría para detectar fallos en tiempo real con menor consumo de recursos, y en finanzas, procesar grandes registros en menos tiempo para prevenir fraudes o analizar riesgos.

- Publicidad -

Como se explica en un artículo publicado en la revista ‘Engineering Applications of Artificial Intelligence’, el sistema se comporta bien en contextos dispares. “No es un método orientado a ciertos tipos de datos, sino que es muy versátil y robusto ante cualquier volumen con gran número de características o instancias”, apunta Juan Francisco Cabrera, coautor del estudio.

Otra ventaja de la herramienta es su simplicidad de implementación. Se puede aplicar fácilmente en entornos de trabajo habituales con inteligencia artificial como el lenguaje de programación Python, y bibliotecas estándar como Scikit-learn, específica para usar técnicas de aprendizaje automático de forma sencilla, lo que facilitaría su adopción por parte de investigadores, empresas o instituciones.

REDIBAGG es una variante de ‘bagging’ (abreviatura en inglés de ‘bootstrap aggregating’), un método de combinación de modelos muy utilizado para mejorar la precisión de los clasificadores en el contexto de la inteligencia artificial. La herramienta crea múltiples subconjuntos a partir de la muestra original de los datos. Cada submuestra se usa para el aprendizaje de un clasificador base y luego se combinan las predicciones para tomar decisiones más fiables. El método de ‘remuestreo’ que utiliza ‘bagging’ es ‘bootstrap’, una técnica estadística que genera submuestras aleatorias con reemplazo. Es decir, se crean nuevas colecciones de datos eligiendo ejemplos al azar del conjunto original, permitiendo que algunos se repitan y otros no.

- Publicidad -

Aunque ‘bagging’ es eficaz, su principal inconveniente es el alto coste computacional. Cada modelo se entrena con una submuestra del mismo tamaño que el conjunto original, lo que ralentiza el aprendizaje y multiplica el consumo de recursos. Frente a esta limitación, los expertos han aplicado un nuevo sistema de ‘remuestreo’ que genera subconjuntos más pequeños, pero representativos.

A partir de esas submuestras, han entrenado varios modelos independientes, combinando sus predicciones igual que en ‘bagging’ clásico. “En la era de big data, donde se trabaja con grandes volúmenes de datos, utilizar métodos que reduzcan los tiempos de aprendizaje es de agradecer, sobre todo si se rebaja hasta un 70% con respecto al método original”, destaca Esther Lydia Silva, autora principal del estudio.

Para validar su eficacia lo pusieron a prueba en 30 conjuntos de datos reales utilizando Urania, el supercomputador de la Universidad de Cádiz. Trabajaron en áreas tan diversas como la medicina, la biología, la física o las ciencias sociales. Además, se aplicó con distintos tipos de algoritmos de clasificación, como árboles de decisión, redes neuronales, máquinas de soporte vectorial o modelos bayesianos.

Próximos objetivos

- Publicidad -

En todos los casos, el nuevo enfoque demostró una precisión comparable al método original. De media, consiguieron rebajar el tiempo de entrenamiento en un 35%, alcanzando reducciones del 70% en conjuntos de datos muy grandes. “Al trabajar con modelos menos complejos se reducen las horas de entrenamiento y el coste de almacenamiento, por lo que el método es mucho más eficiente”, matiza la científica.

Ahora los investigadores se proponen liberar el método para su disposición por parte de la comunidad científica. También contemplan estudiar cómo la herramienta podría aplicarse a otros sistemas de aprendizaje automático, aparte de ‘bagging’ y sus variantes, combinarlo con técnicas de selección de variables para obtener modelos aún más eficientes o explorar su adaptación a tareas de regresión, en las que se predicen valores numéricos en lugar de categorías.

El trabajo ha sido financiado, además de por la Consejería de Universidad, por Fondos FEDER.

Últimas noticias