8 meneos
64 clics
OpenAI presenta MLE-bench: un nuevo estándar para evaluar agentes de Inteligencia Artificial en tareas de ingeniería de Machine Learning
Esta nueva herramienta se compone de 75 competiciones seleccionadas cuidadosamente, abarcando una amplia gama de tareas como entrenamiento de modelos, preparación de datos y experimentación, con el fin de proporcionar una medición precisa y detallada de las capacidades de los agentes en entornos reales de ML. arxiv.org/abs/2410.07095
|
Click para ver los comentarios