Actualidad y sociedad
9 meneos
327 clics

Nuevo modelo de Open ai O3, increibles resultados

Hoy vamos a analizar el nuevo modelo o3, el regalo navideño que nos ha dejado OpenAI . Capacidades , comparaciones , procesos , precios. Test ia razonamiento.

| etiquetas: ia , o3 , openai inteligenccia artificial nuevo modelo
Lo espectacular, más que los resultados, es la velocidad a la que avanza esta tecnología, no es lo que tenemos ahora sino lo que tendremos en pocos años a esta velocidad de evolución.
#13 Se esta metiendo mucho dinero y yo soy informatico , en los noventas oias hablar de megaordenadores y ahi se quedaba , ahora estamos tocando tecnologia con una financiacion de miles de millones mientras casi se desarrolla.
Cada grafica de las nuevas que se usa son entre 25 y 40 mil dolares. Microsoft tiene 500 mil , y no creo que puedan frenar porque sino la competencia se los come y eso que el mayor competidor China tiene las "manos atadas" y esta optimizando lo que tiene.
Vamos…   » ver todo el comentario
#13 A veces pienso que estamos en la prehistoria de la informática, todo nos asombra, pero es caca con lo que está por venir.
#18 A la velocidad que va todo esto, tu pensamiento no va nada desencaminado.

Menos mal que me quedan tres telediarios pero si me fallan los cálculos soy capaz de hacer una instalación eléctrica, pintar, poner tuberías, arreglar un embrague y mil cosas más que difícilmente podrá hacerlas una IA antes de que palme.
Cada vez que sacan uno son increíbles resultados... Y yo, a nivel de andar por casa, llevo sin notar mejora desde los primeros modelos populares
#1 Yo no sabria ni ponerle un problema matematico complejo ni saber si la respuesta es valida. Pero es bueno saber que va avanzando y que lo puede hacer.
Pero por eso no dejan de ser increibles los resultadosm, cada vez, esta avanzando rapido, pero en numeros . un 76% de respouesta unos diez dolares y resultado optimo de respuesta solo para el test un 87% 1.7 millones.
Hay que valorar que dentro de unos meses quizas ese coste de 1,7 millones se reduzca a 10 dolares y los modelos actuales que son de pago seran gratis.
Y asi cada seis meses. Pretender manejar, sin apenas conocimientos, recursos que solo casi los genios pueden gestionar no se si es bueno o malo , pero me entretiene.
#2 Los modelos gratuitos actuales resuelven los mismos problemas que los de pago de hace dos años. Pero rendimientos pasados no implican rendimientos futuros.
#23 por de pronto los modelos de pago presentes hacen cosas que no hacian los modelos de pago pasado, la inversion sigue subiendo y la potencia tambien.
Incluso en sitios donde la inversion no sube el codigo mejora. Pero sin duda los rendimientos futuros los veremos cuando lleguen , y puede llegar un punto de tope pero por de pronto parece que son los test los que estan llegando a ese punto. Segun dicen, que recordemos que tambien tienen que vender ilusion para sacar mas rendimiento economico. xD
#1 es todo marketing. Tienen que mantener la atención
#9, vigila que se te cae el palillo.
#25 lee a gente como Gary Marcus, hijo. No te quedes con anuncios como ese. Ni atisbo de sentido común en esos modelos. Resuelven los ARC porque están entrenados con infinitud de datos.

Ánimo, se puede salir del hype
#27, Gary Marcus es un meme andante, el hecho que lo tengas como referente ya lo dice todo. Precisamente el ARC AGI es imposible entrenarlo a base de memorización porque cada ejemplo tiene una lógica distinta, está era la gracia de este benchmark.
#1 yo a nivel profesional pero sin grandes exigencias, veo avances brutales tanto en resolución de problemas como en programación. Hace 6 meses pude estar horas y horas tratando de hacer un programa en Python y en JavaScript. Con o1 he tardado 10 minutos. Solo algún pequeño error (mio, que me faltaban librerías) y que no entiendo por qué no me ha dado la versión optimizada desde el principio sin tener que pedirle mejoras específicamente
#10 Yo probe o1 y me daba errores de tiempos y de librerias en diferentes lenguajes pero luego probe gemini 2.0 por prompt y veia como razonaba y gestionaba los datos e hizo lo que yo queria sin necesidad hacer el programa ni cargarlo al menos en comandos, solo los resultados, que buscaba , una vez hecho creo que sera mas facil decirle que lo pase a python.
Y creo que estos dias tambien he visto alguna ia que integraba el phyton
#11 en 4o con Canvas me daba bastantes problemas por encima de 300 lineas de código. Con o1 mini me tocaba hacer algún retoque, y con o1 fabuloso.

La versión pro seguro que también es una pasada, y cuando salga la o3, aunque sea una versión optimizada, fliparemos seguro.
#1 llevamos 2 años de IA a nivel público y el año que viene seguramente veas en el mercado no sólo modelos de ia generativa más específicos. También operativa (aplicadas a robots por ejemplo). Osea que sí, los resultados son increíbles independientemente de la percepción subjetiva de cada uno. Y avanza mes a mes. Y es más, si supieras qué se está realizando ya con nuevos modelos y a la velocidad que va, posiblemente a nivel de década tengamos varias revoluciones en diversos campos, el más notable el biomédico. Relájate y disfruta. Acabarán llegando al público general, va tan rápido que no da tiempo a incorporar las cosas :-)
#12 Pues a ver si consigue terminar con los profesionales de la política.
#1 Porque no hay diferencias. Lo que están mejorando es la capacidad de resolver problemas cada vez más complejos, pero siempre adoleciendo de la baja fiabilidad.
¿No era mejor enviar directamente el link a YT? www.youtube.com/watch?v=gamVEhEjZMU
#3 No me dejaba postearlo.
#5 cierto cierto, porque se envian demasiados videos de YT seguramente
#6 Y no de Twitter? Porque solo veo cosas de Twitter en meneame.
Por lo visto o3 ha superado a los humanos en un prestigioso test de inteligencia artificial general, el ARC Challenge, obteniendo un 87,5% cuando los humanos obtienen un 84% . La respuesta del ARC Challenge no ha sido darles el premio sino mover la portería y preparar una prueba más difícil.

www.newscientist.com/article/2462000-openais-o3-model-aced-a-test-of-a
#15, no les han dado el premio porque una de las condiciones es hacerlo sin superar un determinado coste de cómputo, que curiosamente superan el importe del propio premio. Pero han reconocido lo impresionantes que son los resultados que ha obtenido y la necesidad de crear una versión más difícil del test. Después de lo visto estoy casi seguro de que el año que viene nadie serio pondrá en duda que hemos logrado la AGI, increíble lo que estamos viviendo.
#7 La AGI casi seguro que vendrá de una aproximación mixta en que los LLMs serán una parte del todo (y sospecho que si no de manera trascendental, tendrán un peso notable). Como dices, son los primeros pasos. Las sorpresas no han hecho más que empezar.
El tiempo dirá si la métrica ha sido la medición objetiva, o si por el contrario se ha convertido el objetivo de la prueba en sí ( y así venderse mejor al verdadero cliente de estas empresas, que no es el usuario final).
#4 Por ahora segun veo a la ia le importa poco la verdad solo usa datos , las matematicas son una verdad diferente menos interpretativa o asi lo veo pero no se , sin duda son los primeros pasos , lo mas normal es caerse y tropezar.
O3.

Lo que hace este trasto es lanzar miles de preguntas contra diferentes LLM buscando la respuesta más prometedora para ir insistiendo sobre ella hasta estabilizarla y devolver eso.

Esto se inventó para jugar al go.

Como no, logra resolver problemas complejos, pero tarda bastante.

Si lo quieres probar, son mil euros.

Han prometido un modelo Light. Hay un método para hacer esto.

Esto NO ES el modelo simbólico que están preparando para resolver problemas matemáticos.
El mes pasado, un análisis de HSBC reveló que el precio del buque insignia de 72 GPU de NVIDIA, el NVL72, rondará los 3 millones de dólares, 120kW de consumo.
Es un servidor que une 36 CPU Grace y 72 GPU Blackwell para proporcionar una velocidad de inferencia 30 veces más rápida que las H100(1.5mill).
El GB200 ofrece 25 veces más rendimiento con el mismo nivel de potencia en comparación con la infraestructura refrigerada por aire H100
Los servidores GB200 le garantizarán a NVIDIA 210.000 millones de dólares

menéame