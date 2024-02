Egunon! Zer nahi duzu egun honetan? Así responde al saludar ChatGPT de OpenAI cuándo le saludas en euskera. ¿Me puedes decir algo en catalán? «Benvingut a la bellesa de la llengua catalana, una expressió de la riquesa cultural de Catalunya i de les seves terres» ¿Y en gallego? «Benvido á beleza da lingua galega, unha expresión da riqueza cultural de Galicia e das súas terras».

La inteligencia artificial de Sam Altman, una de las más avanzadas, asegura esta tecnología. No ha ido a clases y ni siquiera ha sido programada en estas lenguas. «Tengo acceso a una gran cantidad de datos textuales en varios idiomas, incluidos estos», responde. «A través de este acceso a datos, he aprendido patrones lingüísticos, gramaticales y vocabulario en estos idiomas, lo que me permite generar texto coherente y relevante», añade. Pero no solo en estas lenguas, también ha aprendido español con este método

«En muchas ocasiones estos sistemas han sido entrenados con textos traducidos del inglés y dan giros extraños», explican a este medio fuentes del Ministerio para la Transformación Digital y de la Función Pública del Gobierno de España. «Vamos a trabajar en colaboración público-privada, con el Barcelona Supercomputing Center, la Red Española de Supercomputación, la Academia Española de la Lengua y la red de academias, en la en la construcción de un gran modelo fundacional de lenguaje de inteligencia artificial entrenado en castellano y las lenguas cooficiales, en código abierto y transparente», afirmó el pasado domingo Pedro Sánchez, presidente del Gobierno de España, en la cena oficial del Mobile World Congress que se celebra en Barcelona. «Ahora hay varios proyectos, pero no hay una 'biblioteca' que los alimente», aseguran fuentes del Gobierno. No obstante, el Barcelona Supercomputing Center lleva meses ya trabajando en ello, pero con el catalán, el vasco y el gallego como epicentro en dos líneas de trabajo bautizadas como ILENIA y AINA.

La inteligencia artificial generativa, como se puede comprobar con ChatGPT, se defiende en español comenta José María Sánchez Santa Cecilia, vicepresidente de Prodware Group -uno de los mayores proveedores de Microsoft-, en conversación telefónica. Aunque, cree, que «este anuncio no es para competir con herramientas como ChatGPT u otras», apunta este directivo. «La clave es proteger el español y que sea más acertado a la hora de dar respuesta al tener un sistema español que lo alimente», añade.

El 90% en inglés

Los modelos de lenguaje requieren corpus masivos de datos lingüísticos. «Para que te hagas una idea, ChatGPT 3.5 está entrenado con más de 5 mil millones de palabras», apunta Xabier Saralegi, jefe de tecnología de Orai NPL Tecnologiak. Y el 90% de esa base de datos de la que bebe la IA generativa está en inglés. «Queremos que España juegue un papel relevante a nivel internacional en el desarrollo de la IA», detalló Sánchez en su discurso ante la industria.

Esta tecnología se asienta en modelos de lenguaje llamados Large Language Models (LLMs, por sus siglas en inglés) que «se entrenan con una gigantesca cantidad de texto obtenido desde internet, libros digitales, prensa y bibliotecas digitales», explica Richard Benjamins, responsable de inteligencia artificial en Telefónica. Estas nuevas herramientas están programadas para comprender y generar lenguaje humano y «se hace dándoles unas frases y quitándoles palabras para que las completen», explica Saralegi. El problema es que las máquinas han dejado de hablar en binario (unos y ceros) para hacerlo en el idioma de Shakespeare. A pesar de ello, el español es uno de los principales idiomas en las redes sociales y es uno de los más escuchados en Spotify.

La lengua de Cervantes es el idioma materno del 6,2% de la población mundial. Alrededor de unos 500 millones de personas lo hablan, solo superado por el chino mandarín. Nuestra lengua materna es un motor económico y el 10% del PIB mundial con capacidad de compra es capaz de mantener una conversación en español. En España aporta el 16% del valor del PIB y del empleo y, solo en la industria cultural, supone alrededor del 3% del PIB. La renta per cápita de los hispanohablantes ascendería a casi 21.000 euros, aunque la previsión para las próximas décadas es que mengüe por la irrupción de nuevas tecnologías. Sin embargo, esas nuevas herramientas tecnológicas se entienden más con el té que con las bravas.

«El español va detrás del inglés, porque, evidentemente, esta tecnología la están desarrollando grandes empresas tecnológicas y son estadounidenses», señalaba hace unos meses a este periódico Asunción Gómez-Pérez, miembro de número de la Real Academia Española (RAE), licenciada en Informática por la Universidad Politécnica de Madrid y doctorada en Ciencias de la Computación e Inteligencia Artificial.

Los algoritmos que alimentan la IA generativa aprenden patrones de lengua y generan respuestas con las palabras más probables. La nueva iniciativa, propuesta por Moncloa, busca proporcionar una infraestructura lingüística abierta, pública y accesible para las empresas, de forma que puedan disponer de un modelo de lenguaje de gran escala, entrenado en castellano y lenguas cooficiales, que facilite servicios en tecnologías del lenguaje para que puedan desarrollar aplicaciones avanzadas para su posterior explotación económica.

Evitar la desaparición del idioma

«La clave es que estas tecnología no cojan textos traducidos, sino que 'piensen' en español o en las lenguas cooficiales», detallan fuentes del ministerio de José Luis Escrivá. En la actualidad, el proyecto ILENIA (Impulso de las lenguas en Inteligencia Artificial), enmarcado dentro del Proyecto Estratégico para la Recuperación y Transformación Económica (PERTE), de Nueva Economía de la Lengua (NEL), tiene como objetivo el desarrollo de recursos multilingües, en especial modelos multilingües de texto, voz y traducción automática que den respuesta a las necesidades de la sociedad y estén en línea con la tecnología actual. «La clave de todo esto es que las lenguas como el euskera, el catalán o el gallego no desaparezcan», defiende Salergi. «Nosotros estamos entrenando una IA con 2 mil millones de palabras sin licencia en euskera», asegura. «Podríamos llegar a 5 mil millones, pero hay más problemas», añade. En el caso del catalán, aseguran fuentes del sector, tiene un 0,019% de datos en esta lengua.

«Tenemos que avanzar», responde el responsable de tecnología de Orai NPL. Ahora mismo, esta compañía vasca está trabajando en la creación de un modelo fundacional en euskera usando como base uno en inglés. «No tenemos una base de datos tan grande como para empezar de cero», advierte. «Luego con esto podremos crear otras herramientas», añade.

Bajo ILENIA y la coordinación del Barcelona Supercomputing Center empresas y administraciones vascas, catalanas y gallegas están ya trabajando en generar un corpus común de frases a leer para proteger estas lenguas y que no se pierdan en la nueva economía del lenguaje.