Esta nueva herramienta se compone de 75 competiciones seleccionadas cuidadosamente, abarcando una amplia gama de tareas como entrenamiento de modelos, preparación de datos y experimentación, con el fin de proporcionar una medición precisa y detallada de las capacidades de los agentes en entornos reales de ML.
arxiv.org/abs/2410.07095