#5 El modelo completo requiere un equipo bastante potente (no tanto como el que pones tú ahí, pero sí unos 6000€ por lo menos), pero lo interesante de que sea open weights no es únicamente que puedas ejecutarlo tú en teoría, sino que los pueden ejecutar otros en la práctica. O sea ya hay por lo menos 6-12 proveedores diferentes en diferentes partes del mundo que ofrecen una API de deepseek R1.
#97 Eso me estaba preguntando yo. Aunque no llegue al nivel de esos dos, Mistral es bastante decente. Y ahora han sacado un modelo pequeño de 24B (mistral 3 small) que podemos ejecutar en local y funciona sorprendentemente bien para su tamaño.
#111 El modelo completo es demasiado tocho para mi equipo, así que uso la API de algún proveedor. Por ejemplo fireworks.ai lo ofrecen, creo que dan 1$ gratis (que da para muchos mensajes) y tienen API de text completion (que hace falta para poder saltarse la censura, para eso después del prompt pon <think> y un solo salto de línea). Recomendaría usar la API a través de una GUI. Aun tengo que averiguar como tener toda la funcionalidad de la web (con el modo búsqueda, sin re-enviar el <think></think> de los mensajes anteriores cada vez para no estar consumiendo tokens y contexto, y poder ocultar el think).
Acabo de ver que está gratis en openrouter, pero sin text completion, solo la API de chat. Así que mientras no necesites preguntar ciertas cosas relacionadas con China, openrouter parece la mejor opción.
#51 No hace falta gastar tanto para ejecutar DeepSeek R1 de 671B incluso sin cuantizar (comprimir). Aquí un hilo de alguien montándose un PC por 6.000 dólares que ejecuta el modelo a 6-8 tokens por segundo. Si lo cuantizas a 4 bits en teoría va el doble de rápido y ocupa la mitad de memoria. Aunque no sea asequible para mí, es importante que sí lo sea para otros porque podemos usar el modelo sin depender de los servidores de los propietarios de los modelos, así como usar versiones modificadas, etc.
Ojo que el modelo max no es abierto, no se puede descargar ni ejecutar donde quieras como R1. Solo se puede usar a través de sus servidores. Por eso ni me he molestado en probarlo.
#26 La web oficial te da ese resultado porque no tiene más remedio, pero el modelo es abierto y yo lo he podido usar sin censura (o sea, censura tiene pero es increíblemente fácil saltártela).
#69 Hay varias formas de quitarle censura a modelos. Una es entrenarlo con el tipo de datos que quieres que dé, y otra es con una técnica llamada "abliteration" que básicamente identifica los pesos que provocan la respuesta censurada y los anula. Es algo así como cortar aquellas conexiones neuronales que se activan exclusivamente durante una respuesta censurada y no durante cualquier otro tipo de respuesta.
#45 Sí que se puede porque 1. el entrenamiento también incluye datos fiables de tianmen y taiwan, y 2. hay diversas técnicas de quitar censuras de un modelo.
#56 Los distills de 8 y 70B están hechos a partir de llama 3.1 y 3.3 respectivamente. Ollama debería haber incluído los nombres originales de los distills en su nombre.
#50 Para inferencia necesitas mucho más. Son 37B de parámetros activos por token, y en cada token puede ser diferente. Lo de 37B activos permita que funcione muy rápido en comparación con un modelo denso, pero no te libras de tener que alojar todo el modelo en memoria. La versión más cuantizada que existe (y que funcione!) ocupa 131 gb (solo el modelo, sin contar con el contexto).
#52 Según cuanta velocidad quieras, y cuanto lo comprimas. Han conseguido ejecutarlo con menos de 200 gb de ram con una calidad aceptable (y rendimiento aceptable para según que usos).
#88 La cantidad de corrupción es proporcional a la cantidad de poder que uno tiene. Eso de poder presentarse a alcalde no es muy diferente a como es en China. La cuestión es que existe y que la gente vota a sus dirigentes locales. Cualquiera puede presentarse como candidato. No me malinterpretes, no me gusta el sistema de votaciones de China un pelo. Pero la idea de que es todo una dictadura pura y dura es incorrecta.
#82 Resalto lo de "en sus circunstancias". Yo también habría sabido hacer idealista en aquel entonces. Pero yo no podría haber mantenido un servidor con su conexión funcionando durante el suficiente tiempo para poder tener ingresos que lo mantengan (de hecho no me habría dado ni para un solo mes), ni podría haber dedicado nada de dinero a publicidad, ni SEO, ni nada de eso. Tampoco sabemos qué conexiones puede haberle facilitado que tenga éxito. A veces el apartado técnico de uno de estos proyectos es lo más obvio, pero se te olvidan los inmensos costes de la gestión y el mantenimiento. Tú tampoco hubieras podido, salvo que seas de una familia adinerada, en cuyo caso jugamos en una liga diferente.
#86 Lo puedes llamar democracia cuando los únicos candidatos viables son todos corruptos? Decir que un país no es democrático no convierte a otro automáticamente en democrático. No me malinterpretes. Al menos en EEUU hay posibilidades de cambio que no hay en China, pero la cosa no pinta muy bien que digamos.
#8 Del artículo: "según Yann LeCun, «para aquellas personas que ven el rendimiento de DeepSeek y piensan que China está superando a los Estados Unidos en inteligencia artificial, están leyendo mal. La lectura correcta es que los modelos de código abierto están superando a los propietarios»". De hecho hay otros modelos libres de varias partes del mundo que también son rival de modelos cerrados en ámbitos variados (no todo requiere el modelo más grande).
#2 deepseek es ambos: el código (de entrenamiento, inferencia, etc) es abierto y la licencia de los pesos es bastante permisiva. El modelo tiene unas restricciones de uso que hace que no sea técnicamente "open source" pero me parecen bastante razonables (como prohibir el uso militar). Ya hay gente haciendo un modelo como R1 pero libre sin restricciones, usando todo el material libre que han publicado.
#20 Cualquiera habría podido crear zip2 en sus circunstancias. El problema es que sus circunstancias fueron muy excepcionales. La mayoría de gente en esa época no tenía el suficiente tiempo y dinero para hacer eso, y la mayoría de la gente en esa época no tenían los contactos adecuados tampoco. Es un cúmulo de circunstancias favorables, no simplemente "tener dinero" y ya está, pero está claro que la riqueza familiar ha ayudado y mucho.
#8 Tener pasta no es suficiente, pero tenemos que tener en cuenta quienes compiten con quienes para triunfar: Musk y demás ha sido más listo y ha dedicado más esfuerzo etc. etc. pero en comparación con otra gente rica. Simplemente juegan en otra liga.
#56 Retuneado desde cual? deepseek R1 es un fine tune de deepseek V3, hechos por la misma gente. Y V3 de por sí ya tiene unas cuantas innovaciones que han publicado.
#71 He dicho que la situación es cuestionable (y más aun a partir de ahora), no que no tengan libertad. Lo de democracia es otra historia, solo una quita parte ha votado al presidente actual, y el candidato que batió records de donaciones individuales por todo el país en 2016 y 2020 fue desplazado gracias a la enorme influencia que tienen los ultra ricos sobre los "demócratas".
No me gustan ninguno de los dos países, pero tengo amigos españoles que están aprendiendo mandarín y no conozco a nadie español que quiera irse a EEUU.