edición general
333 meneos
3708 clics
DeepSeek en local era justo lo que buscaba: una inteligencia artificial de calidad, privada y sin suscripciones

DeepSeek en local era justo lo que buscaba: una inteligencia artificial de calidad, privada y sin suscripciones

Era usuaria de ChatGPT convencida hasta que descubrí que podía hacer prácticamente lo mismo en local, sin censura y con un proyecto de código abierto

| etiquetas: deepseek , ia , local
Comentarios destacados:                        
#49 #3 Negativo por desinformar (aunque estoy seguro que no lo haces a propósito).
Ni de coña puedes correr Deepseek-R1 en un pc de 600€.
Lo que puedes correr son destilados de Qwen/llama.

Me cago en ollama! son los grandes culpables de la desinformación sobre Deepseek-R1 por la mierda de nombres que usan!
Ya lo ponen en los propios comentarios del artículo, pero lo cierto es que el problema es que las versiones que puedes instalar en PCs normalillos no son muy listas que digamos. Pero bueno, que yo también creo que el camino debería ser ese, ofrecer la posibilidad de ejecutar un modelo de IA solvente desde tu propio equipo, para no acabar dependiendo de suscripciones, con lo que ello conlleva.
#1 imagino que para corregir textos y cosas asi va que chuta.
A mi también me parece el camino.
#6 Y para poder extraer información sobre cosas que no puedes subir a una nube de otra persona ya que vulnerarías los derechos de autos (o directamente no confías en dicha nube)
Por ejemplo informes médicos.
En el SAS (servicio Andaluz de Salud) muchas de las consecuencias sobre como mejorar el servicio (o ahorrar dinero) se obtenían mediante algoritmos que debían escribir los informáticos, específicos y normalmente muy poco eficientes.
Si le metes los datos a una IA y luego esta te responde a tus preguntas tienes un método seguro de obtener información relevante sin necesidad de saber programar.
#14 esa es la parte que me parece más clave, en temas médicos es un cambio increíble, porque nunca usaría chatgpt para ello
#23 #14 cualquier cosa que permita RAG es el futuro.
#26 no te creas que un rag es una gran idea. Tiene muchos problemas y no parece que se puedan resolver.
#73 En 2002 te recuerdo que la mayoría de la población no tenía acceso a internet en su casa.
Y ese tipo de cosas han evolucionado mucho en los últimos 22 años, siendo informático yo también considero que una máquina no sabe más que un médico, incluso ahora, como para creer lo contrario hace casi un cuarto de siglo.

Es interesante como, para la medicina, estás dispuesto a pensar en un sistema híbrido y comentas como raro que los médicos no consideren un diagnóstico de la máquina junto al suyo…   » ver todo el comentario
#74 ¿Por ejemplo?
#98 ¿Quieres saber por qué creemos en el mundillo que un RAG no es una buena idea? Por muchos motivos, pero hay uno que es prácticamente insalvable, la falta de contexto y la incapacidad de una máquina de comprender qué es un contexto. Por ejemplo, los vectores guardados con algo que tenga que ver con un rey, una reina, un legislador, un regente, hombre fuerte, etc. Si te fijas, todos ellos sirven para definir a un o una mandamás, pues, no todas ellas tendrían el mismo valor coseno vectorial,…   » ver todo el comentario
#23 últimamente he visto médicos que mejor usan alguna IA
#61 si, pero respetando la privacidad, así que no puedes usar ningún programa que no sea software libre y pueda ser instalado aislado de la red
#14 En el año 2002 desarrolla un sistema híbrido conexionista para el diagnóstico de una enfermedad. Los propios médicos lo tiraron atrás porque: "Como va a saber mas una maquina que un médico'"
Me parece que tenemos una visión contrapuesta y
Los algoritmos los escriben los informáticos en base al conocimiento de los experto del negocio. Si los expertos del negocio no conocen su negocio, quizá las Ia puedan encontrar patrones ocultos pero poco más. Y posiblemente los expertos del negocio que no conocen su negocio, no puedan validar la efectividad de los patrones encontrados.
En este caso la información relevante no son fichas de los pacientes cuidad con dejar a la ia aplicar generalizaciones sobre datos que deben ser exactos.
#1 una de 8B va de pm, fina fina. La de 32 es más lista pero se atasca
#22 Fueron las que probé, y van bien en un equipo con unos años como el mío, pero no es un resultado comparable.
#36 La deepseek R1 distilled Llama 8B
En realidad para lo que las uso, cualquiera 8B me van bien.

Algún experto en la sala de cómo usar agentes o qué modelos van bien para hacer RAG y q programas usar? Mi arma de momento Lmstudio + anythingLLM
#42 yo no me fiaría demasiado de un rag, pero si te interesa trastear y sabes algo de python, te puedo pasar un script para que lo modifiques lo necesario para introducir tus ficheros y también pueda hacer búsquedas en internet.
#75 Tengo python en la cola de pendientes, forever delayed. Estaba pensando en algo plug&play... Pero pasa, que reviso los apuntes y algo haré. Gracias.
#76 gist.githubusercontent.com/alonsoir/3adb5dcd8105db9fb412e61769baa664/r

pip install ray langchain langchain-core langchain-openai langchain-community
langchain-text-splitters langchain-google-community rich faiss-cpu pypdf
#78 este script no es, de hecho, este te dará problemas de serializacion.
Está raro menéame, una vez me deja subir un script de gist, después me dice que no, que hay un ban.

Si subes un directorio y buscas el anterior, irá mejor. No hace falta que uses ray, quita esa dependencia.
#76 menéame aplica un ban a gist.github
#1 Asi que para ti, el camino deberia ser que las empresas te ofrezcan la posibilidad de que te instales su producto en local para que así no les tengas que pagar una suscripción... Solo por curiosidad, a qué te dedicas?
#24 te suena de algo Linux o el software libre? Hay personas y empresas ganando dinero ahí y el producto está a disposición de quien lo quiera.
#24 existía el mundo del software previo a las suscripciones.

De todas formas esto es software libre, con lo que empresas locales de todo el mundo pueden ofrecer el servicio, adaptación y manteniendo. Sin que tenga su ser las mismas 4 de siempre, ni tener que cederles todos tus datos a parte de todo tu dinero.

Y tú a qué te dedicas?
#24 Llevo varias décadas usando un ordenador y la norma solía ser esa: tú en tu equipo ejecutabas su software para lo que te saliese del nabo. Desde ofimática hasta edición de vídeo. He ido esquivando suscripciones y servicios en la nube (salvo copias de seguridad) toda la vida a base de software libre: de Microsoft Office a Libreoffice, de Photoshop a GIMP,etc. Con la IA tengo pensado hacer exactamente lo mismo siempre que sea posible.

Soy profesor.
#1 para eso ya tenías ollama desde hace tiempo
#44 Estuve haciendo pruebas con Ollama y LM Studio estas últimas semanas.
#46 estoy igual, lm studio me parece mucho más lento, incluso usando más cores, ollama parece más ágil en el desempeño. ¿Sabes cómo quitar el <think> de las respuestas con ollama?
#1 el problema de una IA no conectada, es el mismo que un periódico sin Internet, que pierde el 90% de su utilidad. Te servirá para traducir, o resumir, pero será más complicado que sirva para algo más avanzado
#58 Quizás para uso interno en una empresa para generar prompts para analítica de datos sin riesgo de fugas de información.
#58 A ver, yo si se ejecuta en local y no envía nada a servidores externos me fío de que acceda a mi sistema y lea mis mails que cuando lo hace ChatGPT.
#1 Eso no da el mismo dinero que dan las suscripciones, así que por mucho que sea el camino, no será el camino
#1 Yo he probado un poco de todo, por curiosidad. Mi mejor resultado en un ordenador modesto ha sido Meta-Llama 3.1 8B Instruct Q8. He probado DeepSeek R1 Distill Llama 8B y no llega a su nivel. Obviamente hablo de versiones bastante pequeñas de 8 GB y que se pueden ejecutar con una tarjeta gráfica normalita. Para mí Meta-Llama (la uso con LMStudio o GPT4ALL que están en los repos de Manjaro) es sorprendentemente buena y muy solvente en todos los campos que he tocado: conversación general muy…   » ver todo el comentario
#69 para generar contenido a partir de datos ¿Sabes cuál puede venir mejor?
#86 Con PDF, en mi caso funciona mejor Meta-llama. La 8B es muy buena. En general te vale la pena hacer pruebas para tu caso particular.
No explica la "usuaria" de ChatGPT donde ha sacado un ordenador de 10000€ para ejecutar DeepSeek en local.
#2 Puedes ejecutar DeeSeek en un pc de 600€, mi equipo no está a la última que digamos y no tiene gráfica nvidia, y funciona razonablemente bien, no como otras ia's que he ejecutado en local y donde mi equipo se asfixiaba.
#3 eso no es deepseek. Habría que especificar que destilado del modelo, que es a lo que se refiere #2, que no hay ningún usuario que pueda ejecutar deepseek real en local.
#28 Poder se puede... de hecho por unos 6000€ se puede...
otros, incluso, lo hacen con SSDs aunque creo que éstos no pasan de 1t/s o así... pero poder se puede.

Eso sí, lo que corre la mayoría de la gente, es lo que dices, destilados.
#3 sip y en una rasperry pi tb
#3 no puedes.
#3 Negativo por desinformar (aunque estoy seguro que no lo haces a propósito).
Ni de coña puedes correr Deepseek-R1 en un pc de 600€.
Lo que puedes correr son destilados de Qwen/llama.

Me cago en ollama! son los grandes culpables de la desinformación sobre Deepseek-R1 por la mierda de nombres que usan!
#49 Hay pocos ordenadores domésticos que puedan usar modelos de 370B
#2 "No obstante, cuenta con ocho mil millones de parámetros. La eficiencia de DeepSeek es una virtud que se aprecia enormemente cuando la usas desde tu equipo, en mi caso un Mac Mini y un MacBook Air apañados pero nada del otro mundo."
Pero es imposible que te explique todas las cosas que no son necesarias para el uso que ella le da.
Tambien explica que version del modelo 8 mil parametros por encima estan varios que ocupan mas y que requieren mas potencia. Pero no los que ella necesita.
#2 por lo que tengo entendido para las versiones ligeras no necesitas tanta maquina.
#5 Las versiones "ligeras" NO son Deepseek-R1!
#52 Aquí hay un hilo con datos de usuarios reales:
- i7-4790K, 16gb memory and a GTX-1060 6gb => 19.4 Tokens / segundo... yo creo que de segunda mano puedes conseguir ese hardware a buen precio.
www.reddit.com/r/ollama/comments/1ifa93h/deepseek_r1_hardware_requirem

Yo creo que la arquitectura de memoria unificada fue bastante acertada por parte de Apple, usando Olama para correr varios modelos estoy bastante satisfecho (para lo que yo lo uso).
#2 yo tengo una 1070 y tira de bien
#2 DeepSeek en local admite un mínimo de 4 cores y 8gb de ram. O sea que con una Raspberry 5 tienes una IA local, por supuesto lenta de cojones al no tener GPU y usar modo CPU only, pero el algoritmo es el mismo, up to you para quitar toda la purria que no necesitas y crear un sistema experto en reconocimiento de melocotones maduros, montarlo en un drón y reducir costes en tu granja por menos de 500 leuros. y todo comprado en Aliexpress.
#16 Negativo por desinformar.

No hablas de Deepseek-R1, sino de destilados Qwen/llama.

Es IMPOSIBLE correr Deepseek-R1 en lo que dices... Bueno, tal vez es posible, pero dudo que superes el token por año...
#53 Por supuesto que son destilados. El despliegue total de r1 son 480Gb de vram y ni te cuento de disco. Pero vuelvo a lo mismo, no vas a conseguir una IA genérica, por supuesto, pero si una entrenable a nivel local para determinadas áreas muy especificas como la que he dicho , reconocer melocotones maduros, reconocer caras, entrenarla en un lenguaje determinado de programación y que pique código. Tienes el fuente, puedes tunearla para tus propósitos y tu hardware disponible.

ollama.com/library/deepseek-r1
#16 con CC a #53

Aquí tenéis un video de como se puede conseguir:
www.youtube.com/watch?v=o1sN1lB76EA

Sigo bastante a Jeff Geerling, todo lo que hace lo documenta y comparte gratis en GitHub
Aquí la gente habla sin probar nada.

A mi me va de P.M. con un equipo viejo y GPU barata.

Para que vaya rápido uso el modelo 7B porque cabe entero en memoria. Escribe más rápido de lo que puedo leer.

Intel(R) Core(TM) i5-4460S CPU @ 2.90GHz (AÑO 2014)
16 GB RAM.
RTX 3050 6GB unos 250€.


#!/bin/bash

./llama-server
--host 0.0.0.0
--port 8080
--path "${HOME}/llama/examples/server/public"
-m "${HOME}/llama/models/DeepSeek-R1-Distill-Qwen-7B-Q5_K_M.gguf"
--repeat_penalty 1.1
-ngl 45
--temp 0.9
--no-warmup
--threads 6
-c 0
-n -1
--keep -1
-fa
-nkvo
#10 Yo la tengo instalada en GPT4All, donde se puede instalar de manera bastante más sencilla. También la he probado con docker y con ollama., donde también funciona, pero no detecta la GPU y corre mas lento sobre CPU
#10 A tí te va Qwen, no te va Deepseek-R1.

No estas corriendo Deepseek-R1. Es un destilado/fine-tuning basado en Qwen. Lee bien el modelo (gguf).

Deekseek-R1 es un modelo de 671Gb...
#10 prueba a preguntarle al distill 7b

como se hace el mazapan de España y luego me cuentas xD (el 8B me gusta mas, pero vamos que tampoco es el r1)
#29 No hablo tanto de aprendizaje, sino de que las respuestas estén condicionadas a prompts previos
#33 al menos en ollama al modelo se le pasa la conversación/ prompts anteriores (al menos un resumen).

En chatgpt o versiones web de Deepseek, pues no sé sabe.
#33 Entiendo que preguntas de si conseva contexto, puedes configurarlo en cualquier modelo para que conserve una parte en cada chat, de hecho dandole a ver el "thinking" puedes ver lo que preserva del contexto de la conversacion.
Por cierto, ¿esta IA va aprendiendo cositas de lo que le vas introduciendo o cada vez que la inicias pierde la memoria?
#18 las redes neuronales actuales no aprenden. Infieren del entrenamiento previo el resultado.
Esto no significa que no se puedan usar los prompts y el feedback para reentrenar esos modelos (que es el mecanismo complejo y caro), pero no en local, sino que gemini, openai etc... Lo guardan y lo usan a posteriori.
#18 Interesante cuestión, porque las que yo probé, les podías decir 100 veces que había cometido un error y explicarle la respuesta correcta, y seguía cayendo en el mismo error...
#18 ningún LLM por sí solo dispone de memoria. Para eso necesitas de algunas artimañas que te pueden ofrecer frameworks como LangChain o LlamaIndex
#41 yo entendia que pregunta por consevacion de contexto
#68 estamos hablando de lo mismo. Si quieres que conserve el contexto de la conversación previa tienes que almacenar tu pregunta y la respuesta (y si estamos hablando de un RAG también puedes almacenar el contenido recuperado) en algo que sirva de memoria, de tal manera que en la siguiente pregunta que le hagas se le pasa al LLM todo ese contenido más tu nueva pregunta. Luego puedes refinar esta memoria para que vaya resumiendo el contexto antiguo, lo vaya purgando, etc. Pero es un mecanismo que tienes que implementarle porque el LLM, el modelo de transformers que cargas en memoria, no lo incorpora
DeepSeek es la Encarta del siglo XXI
Errónea. Bulo. Desinformación.

Para correr Deepseek en modo local, se necesita un ordenador muy, pero que muy, potente. El modelo son 671Gb.
O se pueden hacer con menos pero con muchísimo trabajo.

Lo que corren en local son fine-tunings/destilados de otros modelos, aplicando técnicas de Deepseek-R1, pero NO es Deepseek-R1, es llama3 or Qwen2.5.
#47 shhh no le rompas la ilusión a los muchachos.
#47 Joder hasta abajo he tenido que ir para leer a alguien explicarlo xD
#70 Pues lo ha repetido como 6 veces aquí y otras tantas en cada artículo que sale de deepseek.
#95 ya lo he visto luego
Lo de "sin censura", viendo como responde a las cosas sobre China, pues... En fin, parece una publi.
#11 En local no te hace filtrados. El filtro está si la usas online en su web.
Al igual que otras IA aparte del LLM hay otras redes que van mirando lo que escribe y si suelta algo que no debe la para en seco.

Usando la API tampoco, de momento, hay filtrados.
#12 Lo de cortarlo solo lo he visto en Bing, por lo general la censura la aplican añadiendo a tu consulta instrucciones previas dónde le indican a qué no debe responder o qué debe responder ante ciertas preguntas o ámbitos.

Cuándo lo ejecutas en local esas instrucciones previas no están o las puedes decidir tú.
#11 Joder, y tanto! Estaba mirando a ver cuánto tardaba alguien en comentarlo, daña a la vista ver eso ya en la entradilla...

Bueno, rectifico leyendo a #12... En serio? Entonces de qué vale la censura? Cualquier chino podría descargarlo en su ordenador también y ver las respuestas sin censura, no?
#32 SI claro, de hecho si lo pruebas lo ves claramente.... le preguntas cualquier cosa censurada y realmente te la contesta y luego lo borra... puedes decirle, escribe la respuesta intercalando guiones entre cada letra y ya esta por poner un ejemplo (digo en la propia web, en local no el modelo esta completo, pero otra cosa es que los destilados no son lo que ves en la web, y digamos que sale caro una maquina para levantar el R1 completo)
#32 como bien indica #65 una maquina para levantar y ejecutar DeepSeek R1 con todos los parametros a una velocidad decente debe tener al menos 160 Gb de VRAM.
Perdonar mi ignorancia, pero, aunque lo ejecutes en local necesitará conectarse a Internet para alimentarse de información, ¿o también te la descargas?, si es así no hay problema, en caso contrario se la estás pasando a alguien, digo yo.
#7 Los modelos de IA locales como DeepSeek-Coder o similares, **no necesitan conexión a Internet para funcionar una vez descargados**. Aquí los detalles clave:

1. **Funcionamiento offline**:
- El modelo y sus pesos (los "conocimientos" adquiridos durante el entrenamiento) se descargan completamente en tu dispositivo.
- Las respuestas se generan localmente usando esos datos, sin requerir acceso externo.

2. *Limitaciones*:
- **Sin información en tiempo…   » ver todo el comentario
#15 ¿como puedo darle acceso a internet para consultar paginas, por ejemplo para pedirle un resumen? Actualmente estoy haciendo pruebas con ollama y lm studio
#87 así ”fácil” no hay nada aún. Necesitarías un scrapper, en forma de pulgón o integrado en el software.
Pues llevas años pudiéndote haber instalado el ollama y el Fooocus con montones de modelos totalmente Free.
He leído el artículo hasta que dice "soy una periodista" (supongo que por escribir en Gennbeta, lo mismo que yo soy artillero de infantería en Call of Duty)
#55 si no tomas precuaciones porque no las tomas, y si las tomas porque las tomas. Todo mal.
Ayer probé el r1 8b, y todavía estoy esperando que me genere un codiguito que le solicité.

Te suelta una parrafada terrible de lo que va a hacer antes de hacerlo.

Mi portátil tiene ya 6 añitos largos.
#8 No, no has probado el "r1", has probado un destilado de Qwen o Llama.

No existe "r1" de 8b. Hay uno sólo y es de 671b
#54 ...te duele la boca ya de decirlo xD
Una duda, a lo mejor (probablemente) un poco tonta... no existe la opción de cargar esto en un docker, meterlo a un servidor pepino de Internet y ejecutar el modelo que quieras en remoto? Sería algo así como "alquilar" la ram/procesador necesarios, aunque me cabe la duda de si sería más caro que simplemente pagar a OpenAI... (?) Hablo como digo desde el más absoluto desconocimiento y como analfabestia, pero no existe la posibilidad de "alquilar" ciclos de trabajo y correrlo allí?
#82 Es totalmente posible. Muchas empresas ofrecen renta por horas de sistemas que pueden ejecutar DeepSeek R1. Incluso una, Microsoft, en su servicio ya incluye una "máquina" preconfigurada con DeepSeek R1, en su sistema Azure.

azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-a
Lo pones con ollama en un momentito pero no sirve para mucho
He trabajado en compañias de IA, y confirmo que lo que escribes en el prompt es revisado.

No es una conversación entre tu y el bot.
No diré que no sea mejor o peor DeepSeek, pero la realidad es que los modelos de un par de billones de parámetros de Llama corren bien si los cargas enteros en RAM o VRAM (no tienen unos requisitos desorbitados y los resultados no son peores en modelos pequeños). No entiendo porque la gente piensa que esto es revolucionario.
#30 se dice "un par de miles de millones". O dices "un par de billions" o dices "un par de miles de millones". También puedes decir "un par de millardos" pero nadie utiliza eso.

Para clarificar, "un par de billones" es 2 trillion.
#43 efectivamente son "billones americanos", si bien alguien que no sea completamente ajeno al contexto sabe interpretarlo.

Profesionalmente nunca lo he oído como trillones de parámetros, si bien sería lo correcto me recuerda a como antaño se hablaba de "octetos" en vez de bytes. Yo creo que ya solo se usa a nivel académico.
Sin censura... en China... :palm:

Cuando parecía que no se podía ser más patético, llegan éstos y demuestran que sí, que la estupidez humana puede seguir creciendo.
Por muy local que sea, teniendo conexión a internet, privada, privada......
#19 solo se puede saber que has descargado el modelo. la conexion a internet es solo necesaria para descargar el modelo y de hecho el equipo que ejecute deepseek puede tener completamente deshabilitado internet.
#25 entiendo que si es open source, el riesgo de que te lo instales y de regalo incluya un backdoor es mínimo, no?
#37 me pregunto si estarias tan preocupado si la procedencia del modelo fuese del otro lado del atlantico. El modelo no se ejecuta en el aire, se utiliza software como ollama (tambien codigo libre) que no tienen apis para que los modelos se conecten a la red. Si la propaganda hace que la paranoia sea desproporcionada siempre tienes formas de que el proceso se ejecute en un entorno que no tenga conexion de red.

Esta bien ser precavido, pero a estas alturas el problema de robo de informacion personal es muchisimo mas grave por parte de multinacionales occidentales, que son las que ya comercian con nuestros datos.
#19 los LLM locales no hacen llamadas para solicitar cosas online.
#19 la IA no necesita tener internet para dar sus resultados.

menéame