edición general
  1. @Jakeukalane Solo tiene sentido si quieres modelos muy grandes a un rendimiento mas bien lento, pero mayor que usar la cpu. Similar a usar una única gpu pero con mucha mas vram. Y creo que no valía para entrenar modelos, ni para muchas casuísticas, aunque esto ya no estoy tan seguro, hablo de memoria
    Hasta donde yo se pues en profesional quiere tener mas tarjetas en paralelo por el rendimiento extra que dan, o la capacidad de usar otros lenguajes como cuda. Esto es simplemente que para la gente que esta jugando con llama y modelos relativamente grandes.
    @vazana probablemente lo veamos mas pronto que tarde, arm ya lo hace, lo veremos en x86. Aunque juraría que intel ya tiene algo así a nivel de servidor
  1. @Nadieenespecial la comparación que vi yo era componente a componente. Y en todos era peor. Tendré que mirar el modelo que me dices detenidamente.
    1. @Jakeukalane mira esta comparación github.com/ggerganov/llama.cpp/discussions/4167 en uno de los comentarios ponen un equipo con una 4090 de referencia

menéame