edición general
22 meneos
157 clics
o3 puntúa tan alto como programadores humanos en un test de razonamiento y abstracción. Es justo lo que OpenAI necesita

o3 puntúa tan alto como programadores humanos en un test de razonamiento y abstracción. Es justo lo que OpenAI necesita

El lanzamiento el pasado viernes de o3 quizás pasó algo desapercibido ante la avalancha de lanzamientos de OpenAI. En parte porque apareció quizás demasiado rápido —o1 apenas fue lanzado tres meses antes— y en parte porque no está aún disponible para el público. Y aun así todo lo que nos llega nos hace pensar que estamos ante un modelo muy especial.

| etiquetas: ia , desarrollo , software , programación
#0 En el titular donde pone "en un" faltaría indicar el qué, posiblemente sea "test" o "en una prueba" (ya sé que el titular original está también mal, pero habría que subsanarlo igualmente).
#1 Faltaría indicar que se trata de tests diseñados para poder ser corregidos de manera automática, que, vaya casualidad, son justo aquellos en los que la IA se desempeña mejor.
#3 ¿Ahora parte de mover la portería es que deban ser tests donde la respuesta sea subjetiva y dependa del buen o mal humor del corrector y de sus sesgos?

En fin ...
#4 No, no se trata de mover la portería. O bueno, en parte sí, porque hace décadas se pensaba que cuando tuviéramos un modelo capaz de jugar bien al ajedrez, estaríamos cerca de la la inteligencia artificial general, y evidentemente era una percepción errónea.

Pero más allá de esos matices, se ponga un ejemplo concreto: ahora dicen que algunos LLM tienen un nivel matemático elevado. Y lo dicen porque puede resolver un problema matemático y devolver los números correctos. Pero la matemática…   » ver todo el comentario
#5 Para resultados matemáticos tanto en matemáticas como en física los humanos nos asistimos de calculadoras y de ordenadores, no veo razón para que la IA no pueda usar esas mismas herramientas para resolver esos mismos problemas. No nos hace menos inteligentes usar ese tipo de tecnología para asistirnos y en los mismos términos no hace a la IA menos inteligente el usar ese tipo de tecnologías para asistirla.

Me parece un tremendo error pretender valorar la inteligencia de una IA en función de…   » ver todo el comentario
#5 expláyate, es interesante tu comentario
#7 ¿La parte de daños? Por ejemplo, la contaminación del texto publicado. Es posible que pronto, si no ha sucedido ya, se publique en internet más texto generado por LLMs que por personas. Texto diseñado para ser verosímil pero con numerosos errores, y con sesgos de todo tipo.
También hay que tener en cuenta el coste medioambiental y de recursos. Tanto en el entrenamiento de los modelos como la inferencia requieren grandes cantidades de energía.
A nivel político, las posibilidades de realizar…   » ver todo el comentario
#5 cuando tuviéramos un modelo capaz de jugar bien al ajedrez, estaríamos cerca de la la inteligencia artificial general

Pero había una condición implícita, que era "razonando tal y como lo hace un humano", que no es como las máquinas se enfrentan al problema, por lo que los rendimientos no son comparables.

O dicho de otro modo, resulta que existe una forma de calcular buenas jugadas de ajedrez que no implican habilidades de razonamiento general.

Puesto que esta notícia va de o3, pues comento que este modelo de AI es el que se desarrolló para jugar al go, que es algo muy distinto del ajedrez.
#5, o3 ha sacado muy buenas puntuaciones en FrontierMath que es un benchmark matemático altamente demandante, no se basa en aplicar de memoria un método sino que se trata de analizar y aplicar conocimientos profundos de matemáticas en álgebra, geometría, cálculo... A los matemáticos profesionales les cuesta días resolver cada uno de los problemas. Cada vez que se sube el nivel de exigencia a la IA está la termina superando.

Estamos en un escenario en que ya tenemos IAs que son mejores que la…   » ver todo el comentario
#3, son exactamente los mismos tests que se usan para evaluar el nivel de los programadores humanos en competiciones de programación.
No sé rick... hasta ahora chatgpt no ha dado ni una las veces que le he preguntado algo relacionado con código. De hecho la información que me ha dado raramente me ha servido tal cual aunque he de reconocer que es una buena base para seguir investigando
#9, pues háztelo mirar, porque creo que estás haciendo algo muy mal.
Puntúa alto, pero con una condición, que se llama 1000€.

menéame