#10: «#8 #9 yo también me lo pregunto, pero no es a fonde se están moviendo las cosas. Lo que quieren son modelos que también sepan escribir. Debería ser trivial lo que proponéis. Por ejemplo en Krita, que escribas en texto y luego le pidas al in-painting que lo fusione. Habrá mucha gente que ya lo haga así. Pero si se quiere usar una sola cosa todavía queda algo de camino aunque las letras en este caso apenas ha fallado dos veces, tiene pinta de ser Flux o SDXL (#0 ¿ ?), los fallos con modelos anteriores eran mucho más graves.
De los mejores in-painting que he probado, por cierto, son en getimg.ai No sé cómo será ahora porque hace año y medio que no hago imágenes con in-painting o con otra cosa diferente a a Dall-E 3.»
#4: «#1 #2 porque no se trata como texto sino como imagen. Es decir, no están introduciendo el texto literal y ya está, sino que están "buscando" esas palabras escritas en su dataset, por lo tanto el resultado es un batiburrillo estadístico del entrenamiento. Mientras que en una manzana el error para tú determinar que esa manzana está "mal hecha" tiene que ser mucho menor, los trazos de las letras son mucho más pequeños y por lo tanto cualquier error es mucho más fácil de…»
#7: «¿Lo del cielo es la luna? ¿y lo otro del cielo, junto al horizonte, también? Lo que claramente no es la luna es donde están cayendo las manzanas... »
#8#9 yo también me lo pregunto, pero no es a fonde se están moviendo las cosas. Lo que quieren son modelos que también sepan escribir. Debería ser trivial lo que proponéis. Por ejemplo en Krita, que escribas en texto y luego le pidas al in-painting que lo fusione. Habrá mucha gente que ya lo haga así. Pero si se quiere usar una sola cosa todavía queda algo de camino aunque las letras en este caso apenas ha fallado dos veces, tiene pinta de ser Flux o SDXL (#0 ¿ ?), los fallos con modelos anteriores eran mucho más graves.
De los mejores in-painting que he probado, por cierto, son en getimg.ai No sé cómo será ahora porque hace año y medio que no hago imágenes con in-painting o con otra cosa diferente a a Dall-E 3.
#1#2 porque no se trata como texto sino como imagen. Es decir, no están introduciendo el texto literal y ya está, sino que están "buscando" esas palabras escritas en su dataset, por lo tanto el resultado es un batiburrillo estadístico del entrenamiento. Mientras que en una manzana el error para tú determinar que esa manzana está "mal hecha" tiene que ser mucho menor, los trazos de las letras son mucho más pequeños y por lo tanto cualquier error es mucho más fácil de… » ver todo el comentario
#4 ¿Y no sería razonable que añadieran un paso del tipo: primero encárgate de la imagen, luego añade texto y, finalmente revisa que ambas cosas encajen?
#4 Muchas gracias por la explicación. Ya intuía que iba por el hecho de que intenta "dibujar" las letras, no "escribirlas". Lo que me sigue sorprendiendo es que, siendo conscientes de esto, no programen a la ia con algo del tipo "cuando te pidan explícitamente introducir un texto, haz una excepción y cópialo literalmente". Supongo que no sería tan complicado de implementar. Si he dicho alguna barbaridad, perdón, pero el.de la.programación es un mundo del cual soy totalmente ignorante