Noticias de ciencia y lo que la rodea
9 meneos
141 clics
La verdadera dimensión de los datos para la IA

La verdadera dimensión de los datos para la IA

Resulta un verdadero desafío hacerse una idea de la verdadera dimensión de los datos con los que trabajan las compañías que trabajan en el desarrollo de algoritmos de inteligencia artificial generativa, y algunos artículos recientes pueden servir de guía para ello.

| etiquetas: algoritmos , inteligencia artificial , google , youtube , internet , datos
Resulta que la IA necesita tal cantidad de datos que, ante la falta de nuevos datos, los ingenieros pasan a utilizar datos ya generados por otra IA.
Como en la primera generación de resultados no puede haber una total perfección, significa que en ese segundo uso de unos mismos datos-fuente se van a utilizar datos imperfectos. Por lo tanto los resultados serán más imperfectos aún.
Esto es un defecto de la IA que crece exponencialmente.
#1 Artificial Intelligence? Nah, Artificial Inbreeding.
#2 Buen símil. Y ya sabemos el resultado de la endogamia.
#1 significa que en ese segundo uso de unos mismos datos-fuente se van a utilizar datos imperfectos. Por lo tanto los resultados serán más imperfectos aún.

Lo que describes es algo no deseable y por lo tanto los primeros interesados en evitar que eso ocurra son los propios creadores de grandes modelos de lenguaje y de imágenes y otros tipos de resultados generados por IA.

Lo que están desarrollando son marcas de agua que no son visibles y que pueden introducirse tanto en imágenes como…   » ver todo el comentario
#4 El artículo lo que dice es que, en base a lo que tú sugieres, los ingenieros tienen tal necesidad ahora mismo de nuevos datos, que no les importa utilizar datos generados por otra IA, aunque tengan esa "marca de agua".

Es decir ellos YA SABEN que han sido generados por IA, pero no les importa, porque les corre tanta prisa entrenar a su nuevo algoritmo, que : "lo único que importa es que el algoritmo resultante parezca tener una cierta calidad, sin entrar demasiado en detalles".
Esto último dice este artículo, y me lo creo.

Es más fuerte de lo que parece, puesto que saben que usan datos "endogámicos", como dice el amigo en #_2, y por lo tanto, no exactos, por mucha "marca de agua" que lleven.
#5 Si saben que están usando datos sintéticos no veo problema alguno en ello.

Entrenar una IA mediante la salida de otra IA entrenada no sería distinto a que un humano aprenda de lo que le explica un profesor en vez de ir a aprenderlo todo a la naturaleza de primera mano.

Lo que es importante es que sepa que está aprendiendo de un profesor, de otra IA, para que pueda llegar a diferenciar la información directa de la información recibida de segunda mano, con el nivel de escepticismo necesario…   » ver todo el comentario
«mejor pedir perdón que pedir permiso»

Que pidan el perdón que quieran, pero si pone "CC BY-SA", o el resultado final tiene esa licencia, o que retiren el modelo. :roll:
#6 ¿Si tú lees algo CC BY-SA eso significa que a partir de ese momento cualquier cosa que escribas hasta que te mueras tiene que ser necesariamente CC BY-SA?
#8: Si lo copias, sí.
Y si copias trozos pequeños, y los mezclas con otros trozos pequeños también copiados, también.

Y si no os gusta, lo tenéis muy fácil: pagáis por el material al autor original y que no os ponga condiciones, que es muy fácil coger todo gratis de otras personas sin restricciones, y luego ofrecerlo con tarifas o restricciones.
#9 Si lo copias, sí.

Y si no lo copias no.

Entonces deberás demostrar que lo que haya escrito una IA es una copia de ese documento CC BY-SA y no una creación propia de ésta.

Y si copias trozos pequeños, y los mezclas con otros trozos pequeños también copiados, también.

¿Si usas el mismo alfabeto que ese texto ya estás copiando trozos pequeños y mezclándolo con otros trozos pequeños también copiados?

Y si no os gusta, lo tenéis muy fácil: pagáis por el material al autor

…   » ver todo el comentario
#10: ¿Quedaría el modelo igual sin mis fotos? Si es así, no incluyas mis fotos, gracias.
#11 ¿Quedaría el modelo igual sin mis fotos?

¿Sería la misma persona si no hubiera visto esas fotos?

Que el ver algo o aprender algo te cambie no implica que estés obligado a crearlo todo con una licencia específica hasta que te mueras. Lo mismo con una IA.

Si no quieres que esas fotos puedan cambiar el cerebro de otras personas o IAs no las publiques.
#12: Cuando una persona ve un cuadro, no toma medidas matemáticas del cuadro. De hecho el visionado de un cuadro no es igual si lo haces con 8 años que si lo haces con 20, te fijas en otros detalles. Si te preguntan qué colores hay no das respuestas absolutas, sino tanteos ("marrón oscuro", "ocre verdoso"...).

Lo de la IA toman datos numéricos directamente de las obras, y aunque haya transformaciones matemáticas, son parámetros numéricos medibles, copiables, repetibles...…   » ver todo el comentario
#13 Cuando una persona ve un cuadro, no toma medidas matemáticas del cuadro.

O sí, desconocemos como funciona el cerebro.

De hecho el visionado de un cuadro no es igual si lo haces con 8 años que si lo haces con 20

Los fotones son equiparables, el procesado es distinto. En el mismo sentido para una IA que lleva cien fases de entrenamiento el equivalente a los fotones serán equiparables pero el procesado es distinto, altera distintas partes del cerebro digital.

Si te

…   » ver todo el comentario
#14: Tampoco las IA dan respuestas absolutas.
Salvo que metas números aleatorios a propósito, los resultados son reproducibles.

Los ficheros MP3 no se generan mediante IA, no se requiere de un cerebro digital para generar un MP3.
Pero son parámetros matemáticos.

Ambos están creados por partículas fundamentales como electrones y protones, puestos a elegir criterios arbitrarios que no tienen nada que ver con el fondo del asunto. Estás siendo especista.
¿Puedes duplicar el…   » ver todo el comentario
#15 Salvo que metas números aleatorios a propósito, los resultados son reproducibles.

El cerebro humano está recibiendo números aleatorios continuamente, sus dispositivos de entrada no se detienen entre respuesta y respuesta. Es equiparable.

Lo que es falso es que la IA siempre responda lo mismo por ser una respuesta equiparable a una base de datos relacional, donde el color medio de un cuadro específico siempre es un valor numérico concreto. La IA no funciona así, precisamente los…   » ver todo el comentario
#16: ¿Puedes duplicar el aprendizaje de una persona, transcribirlo a papel...? Con una AI sí se puede, lo del papel llevaría mucho tiempo, pero se podría hacer, copiarla a papel, escanearla y duplicarla.

La IA no mira la obra original cuando genera una obra derivada en base a lo que le hayas pedido.

No, mira una copia que tiene dentro en trocitos dispersos. :-D
#17, ¿En serio? Tenemos entre manos una tecnología que en pocos años nos puede llevar a horizontes inimaginables como la cura del cáncer o el envejecimiento o la abolición del trabajo como necesidad y vamos a poner todas las trabas para complicar lo máximo posible su desarrollo por nuestra cortitud de miras? La estupidez humana cada día me sorprende más.

Muchos escriptores de ciencia ficción pensaron en un futuro repleto de IAs y robots, pero ninguno fue lo suficientemente audaz para darse…   » ver todo el comentario
#19: El problema está en que si encuentran la cura del cáncer, te harán pasar por caja, aunque hayan usado datos que en parte hayas generado tú. ¿AI para qué, para que unos pocos se beneficien y el resto nos quedemos apartados, pese a haber contribuido al desarrollo?
#20, Stable Diffusion y Llama son Open Source.
#21: El modelo sí, los datos numéricos que adquiere tras el entrenamiento depende de quién lo use. Y luego está el tema de la capacidad de cómputo para usarlo, que no está al alcance de todo el mundo.
#22, stable difusion lo puedes ejecutar con una Nvidia casera.
#23: Sí, bueno, si vendes tus órganos puedes comprarte una. :-P
#17 ¿Puedes duplicar el aprendizaje de una persona, transcribirlo a papel...? Con una AI sí se puede, lo del papel llevaría mucho tiempo, pero se podría hacer, copiarla a papel, escanearla y duplicarla.

Con una IA puedes escribir los pesos de las distintas capas de la red neuronal, puedes hacer una copia de seguridad. Con el cerebro humano no hemos conseguido aún la tecnología para almacenar el estado de todas las neuronas que lo componen. Es un reto tecnológico, irrelevante para lo que…   » ver todo el comentario
comentarios cerrados

menéame