ChatGPT desconoce 20% del español y el restante lo interpreta mal

El español es el tercer idioma más utilizado en internet. Sin embargo, muy pocos modelos de inteligencia artificial generativa entienden la lengua.
ChatGPT iOS
La aplicación ChatGPT de OpenAI para iOS se ha descargado más de 500 000 veces en menos de una semana.Future Publishing/Getty Images

Investigadores de la Universidad Politécnica de Madrid comprobaron que ChatGPT desconoce el 20% del idioma español. Del 80% del léxico que sí reconoce, interpreta significados equivocados en el 5% de las ocasiones. La condición pone en duda la fiabilidad y verdaderas capacidades del popular chatbot.

El estudio utilizó una aplicación de código abierto conocida como ‘ChatWords’. La herramienta analizó la capacidad del algoritmo desarrollado por OpenAI para comprender y utilizar correctamente cerca de 90,000 palabras incluidas en el diccionario de la Real Academia Española. ChatGPT3.5 Turbo desconoce un quinto de los términos estudiados, es decir, alrededor de 18,000 palabras. La investigación recuerda que un hispanohablante reconoce 30,000 palabras en promedio, un tercio del idioma español.


Las cuentas robadas de ChatGPT son de todo el mundo.
OpenAI asegura que utilizará la API de moderación de ChatGPT para evitar que los suscriptores establezcan preferencias que violen políticas de uso en la plataforma.

Javier Conde, coautor del trabajo, explica que “al analizar los significados que ChatGPT ofrece de las palabras, vemos que hay un porcentaje no despreciable en el que el sentido es incorrecto. Quizás ChatGPT no sea tan sabio como aparenta”.

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) basados en inteligencia artificial (IA) diseñados para procesar lenguaje natural evitan el uso de palabras que no reconocen para formular sus respuestas. Pedro Reviriego, coautor de la investigación, señala que bajo esta condición resulta “muy factible un escenario en que el contenido recién generado tenga un número cada vez menor de palabras distintas”. La escasez léxica es el resultado.

La lengua es materia prima en el avance de la IA

Elena González Blanco, CEO y cofundadora de Clibrain, afirma que en 2016 la IA comenzó a funcionar correctamente con el manejo de imágenes. Con el perfeccionamiento de las redes neuronales, los modelos inteligentes han comenzado a mejorar su rendimiento en el terreno del lenguaje. La fase de desarrollo es temprana. “La inteligencia artificial ha mejorado mucho, pero aún tiene mucho por perfeccionar. En nuestra lengua [español], la tecnología tiene una asignatura pendiente”.

De acuerdo con el Instituto Cervantes, en el mundo existen 500 millones de hispanohablantes. El español es la segunda lengua materna a nivel mundial y es el tercer idioma más utilizado en internet, solo por detrás del inglés y el chino. Un 7.5% de la población en el mundo es usuaria potencial del léxico.

“Sin embargo, nos encontramos en un mundo en el que los modelos de inteligencia artificial generativa han nacido en inglés, han sido entrenados en inglés y simplemente se han traducido a distintas lenguas. A pesar del gran volumen de hispanohablantes que hay en el globo, son pocas las tecnologías que están centradas en nuestro idioma", señala González Blanco.

El fenómeno amenaza con aumentar el sesgo existente en el comercio mundial y la innovación. La personas que hablan español tienen la capacidad de generar ganancias cercanas al 10% del Producto Interno Bruto (PIB) mundial. El mercado resulta especialmente atractivo para la naciente industria de la IA.

Por otro lado, Pascale Fung, directora del Centro de Investigación sobre Inteligencia Artificial de la Universidad de Ciencia y Tecnología de Hong Kong, imagina un futuro prometedor en el que asistentes de inteligencia artificial políglotas como ChatGPT eliminen las barreras lingüísticas. Si esto no sucede, las compras y el resto de las actividades asistidas por IA serían unilaterales, advierte la científica.