OpenAI presenta MLE-bench: un nuevo estándar para evaluar agentes de Inteligencia Artificial en tareas de ingeniería de Machine Learning

8 meneos

63 clics

OpenAI presenta MLE-bench: un nuevo estándar para evaluar agentes de Inteligencia Artificial en tareas de ingeniería de Machine Learning

Esta nueva herramienta se compone de 75 competiciones seleccionadas cuidadosamente, abarcando una amplia gama de tareas como entrenamiento de modelos, preparación de datos y experimentación, con el fin de proporcionar una medición precisa y detallada de las capacidades de los agentes en entornos reales de ML. arxiv.org/abs/2410.07095