edición general
99 meneos
942 clics
Modelo de lenguaje LLaMA ejecutado en una antigua computadora con Windows 98 y 128 MB de RAM [EN]

Modelo de lenguaje LLaMA ejecutado en una antigua computadora con Windows 98 y 128 MB de RAM [EN]

Un grupo de investigadores de inteligencia artificial ha demostrado cómo ejecutar un potente modelo de lenguaje de IA en un ordenador con Windows 98. Y no estamos hablando de un PC cualquiera, sino de un sistema Pentium II clásico con apenas 128 MB de RAM. El equipo que está detrás del experimento es EXO Labs, una organización formada por investigadores e ingenieros de la Universidad de Oxford.

| etiquetas: llm , llama , exo labs , inteligencia artificial , oxford
Ok, Han ejecutado una versión optimizada de llama de 260.000 parámetros, que seguramente cabe en esos 128mb de RAM, por lo que la noticia es un poco sensacionalista.

Tienes modelos de llama que ocupan 1gb de RAM, que puedes ejecutar en CPU y que son extremadamente rápidos, pero que al ser muy simples, sus respuestas suelen dejar bastante que desear.

Para los que quieran trastear un poco, solo tienes que bajarte "ollama" y probar modelos que quepan en tu RAM.

Llama3.2:3b suele equivaler a algo menos de 3gb de RAM
Los modelos 8b suelen ser menos de 8gb de RAM

Cuanto mayor xb más preciso es, más consumo de RAM y más lento es.
#3 por lo que he leido lo importante es la RAM
Si se pudiera poner a un procesador equivalente a un 486 varios teras de RAM podría moverlo (Aunque supongo que aumentaría la latencia bastante)
#4 en realidad lo importante es la VRAM. Evidentemente se puede sustituir VRAM por RAM como han hecho en este caso, pero incluso se podría sustituir la VRAM por memoria paginada en disco duro, pero entonces la velocidad decaería muchísimo. La cuestión es que para que un modelo sea útil, no solo debe dar buenas respuestas, las debe dar en un tiempo aceptable. Unos 3 tokens por segundo puede ser el límite de lo aceptable, pero sin duda 1 token por minuto sería absolutamente inútil.
#7 aún tengo alguna PCI y AGP de 256Mb, como me gustan estos “rescates” de tecnología obsoleta.
#7 Linux puede usar VRAM como RAM.

Por cierto, he ejecutado whisper_cpp en un netbook ATOM n270, 1GB de RAM, haciendo como 1.5 con ZRAM.

Para transcribir un vídeo de 5 minutos tardó como entre 6 y 8 horas.
#4 La máxima capacidad de direccionamiento de memoria de un sistema de 32 bits, 2^32= 2GB
#10 quería decir 4 G bits, he mezclado cosas.
#11 2GiB de memoria positiva y otros 2 de memoria negativa :troll:
#17 2 Gb para unos y 2 Gb para ceros. xD
#10 64GB si el procesador dispone de PAE
#4 RAM y RAM en la GPU, es decir VRAM. La VRAM es la más importante.
#4 si me encuentras un 486 que sea de 64 bits (para el direccionamiento de la RAM) lo hablamos :troll:
#25 640 kB deberían ser suficientes para todo el mundo
#25 por eso hablo de un equivalente no de un 486
#3 Lo importante de la noticia es esto:

"For this, the company is developing what it calls the "BitNet" – a transformer architecture that uses ternary weights to drastically reduce model size. With this architecture, a 7 billion parameter model needs just 1.38GB of storage, making it feasible to run on most budget hardware."
#5 será por modelos de todos los tamaños para edge y ARM.
#5 ¿pero va con CUDA o va lento?
#8 Pocos CUDAs vas a mover en un Pentium 2, por lo que veo, para AGP lo último que salió fue la serie 7000 GTX.
#14 H100 como derecho fundamental para todos.

Acabemos con la pobreza de GPUs.
#3 Con la cuantización máxima en FP32 son 4 bytes por parámetro, 260.000 * 4 = 1040000 bytes = 0,9918212890625 MB, es un modelo que no llega a 1 mega de RAM.
#32 Pues en breve si te descuidas te pasa lo mismo. Los juegos ya van por el orden de 150GB de disco.
Lo importante es que IA para tareas sencillas es viable en dispositivos pequeños con pocos recursos, como por ejemplo un horno que se configura con la voz sin necesidad de conexion a internet. Por poner un ejemplo
#9 un horno usará SeamlessAlign(por poner la de Meta, hay otras) para convertir voz en una instrucción propia. Llama obviando el chiste del nombre en un horno es tonteria primero por meterte en la consola de texto, ya que por voz sería usar la SeamlessAling y segundo la función sería para recetas.
#9 Aunque lo veremos es una mala idea que cada dispositivo tenga su propia IA separado del resto del ecosistema. Lo óptimo es que los diferentes dispositivos se conecten a la red interna y sea la misma IA de casa, oficina o donde sea la que administre los dispositivos. En caso contrario tendrás que hacer correcciones y actualizaciones en todas y cada una de ellas de forma periódica, sin entrar en el consumo de recursos innecesario.
#20 Como JARVIS xD
Tengo un 386sx con 4 megas y disco duro de 40 megas. A ver qué hacen.
#1 Es capaz de entender lenguaje natural, pero responde siempre empezando con un "Eso me recuerda a lo que dijo el otro dia Iker Jimenez"
#1 Con eso también puedes ejecutarlo, pero a todos los prompts va a responder con "Hola mundo"
#1 no será IBM? Yo empecé en el mundo digital con ese... Para jugar a un juego tenía que borrar el anterior e instalar el nuevo. Qué tiempos!!
Por fin Clippo va a ser inteligente
Menos mal que salen cosicas como esta para demostrar que no hace falta tener una gráfica nvidia de 1000 euros para "mover un poco" un modelo de IA ya entrenado.
Al final estos modelos serán el nuevo Doom. ¿Puede el microondas de casa correr uno? al tiempo...
Y a 640x480 con dos webos

menéame