Es busquen milions de veus perquè els aparells tecnològics parlin i entenguin el català

El projecte AINA, impulsat pel Departament de Vicepresidència i Polítiques Digitals, llança una campanya de captació de veus per generar el primer diccionari de veu en català

El vicepresident Puigneró presenta la campanya de captació de veus del projecte AINA
El vicepresident Puigneró presenta la campanya de captació de veus del projecte AINA | ND
15 de febrer del 2022
Actualitzat a les 16:39h
El Govern vol que el català també sigui una llengua útil per a la tecnologia i per comunciar-se amb les màquines. Per això, el projecte AINA, impulsat pel Departament de la Vicepresidència, Polítiques Digitals i Territori en col·laboració amb el Barcelona Supercomputing Center (BSC), llançarà el 17 de febrer una campanya de captació de veus per generar el primer corpus o "diccionari" de veu del català amb l'objectiu de fer que la tecnologia parli i entengui el català i la ciutadania s'hi pugui relacionar amb aquesta llengua. Per a l'executiu, aquest projecte és d'una "importància cabdal", com ha detallat el vicepresident, Jordi Puigneró, també per reforçar la llengua catalana a Internet. El pressupost que s'hi destinarà aquest any és de tres milions d'euros.

Per això, amb el lema "La nostra llengua és la teva veu", convida la ciutadania de totes les variants dialectals del català ha compartir la seva veu mitjançant la lectura d'uns textos. La fita que s'ha marcat AINA per aquest any és la creació de la primera versió d'aquest diccionari de veus en català, amb "com més hores de veu i com més diverses millor". El Govern confia en una bona resposta a la campanya, que arrencarà a partir de demà, i que es desplegarà per tot el territori de parla catalana, per comptar amb diverses variants dialectals. No hi ha limitació d'edat per a qui vulgui participar, i és important que la gent que participi es registri per obtenir més informació sobre genere, edat i distribució geogràfica. Ara com ara hi ha 1.000 hores de veu i el repte és aconseguir arribar a les 2.000 (amb transcripció) aquest any.

El vicepresident i conseller de Polítiques Digitals, Jordi Puigneró, ha recordat que fa un any es va donar el tret de sortida al projecte AINA, una aposta per a l'ús del català en l'àmbit tecnològic. El projecte implica un impuls del català en les eines digitals i per "conquerir nous territoris", que passen per noves plataformes i nous dispositius. També és un projecte per "garantir drets". "Els catalanes tenim dret a poder relacionar-nos en català amb les maquines i evitar haver de canviar de llengua a l'hora de parlar amb les maquines", ha remarcat Puigneró. Un altre objectiu d'aquest projecte passa per "generar talent digital" i un ecosistema en l'àmbit de la intel·ligència artificial. "Ens toca ser un país digital", ha insistit Puigneró. I per què AINA? "La filla de la Norma, que porta el nom de la seva àvia, Aina Moll, la primera directora de política lingüística de la Generalitat", ha explicat el vicepresident. 

Per tot plegat, aquest dimecres arrenca la campanya de captació de veus. "Volem socialitzar AINA cap a la ciutadania i que molta gent vulgui ser la seva parella lingüística i pugui aprendre el català", ha dit Puigneró, que ha demanat que aquesta sigui una tasca de tots. El projecte, a dia d'avui, ja coneix la sintaxis del català. En aquesta nova fase, a partir de demà, també ha de conèixer el lèxic i la semàntica, i tota la part oral de la llengua catalana. "Si ja tenim la columna vertebral i l'esquelet, ara hem de construir la seva musculatura", ha apuntat el vicepresident. La campanya es farà a través d'una web que permetrà que qualsevol persona pugui ensenyar a AINA a aprendre català. 

I com es pot fer? És senzill. A partir que arrenqui la campanya, qui estigui interessat en col·laborar haurà d'entrar a www.projecteaina.cat i anar a l'espai corresponent. Un cop allà, haurà de destinar una estona a llegir frases que li proposarà la plataforma i podrà validar també frases d'altres persones. 

Crear la infraestructura per poder desenvolupar aplicacions
La responsable de la Unitat de Mineria de Textos del BSC i coordinadora del projecte, Marta Villegas, ha detallat els tres objectius d'AINA. El primer és proveir el català de la infraestructura necessària per desenvolupar aplicacions basades en la intel·ligència artificials, com ara els assistents de veus (Siri, Alexa...). El segon és fer que la inclusió del català sigui rendible per a les empreses del sector. I per últim fer que els ciutadans puguin participar en català del món digital, igual que els parlants de les altres llengüents. "AINA ho definim com un projecte d'infraestructura: no fem aplicacions finals, això ho farà la indústria a través de la nostra infraestructura", ha dit Villegas.

AINA es fonamenta en el "valor de les dades". El big data és clau. El corpus més gran de l'anglès ocupa 825 GB de dades.; el de castellà, 560. Per al català, el corpus català més gran fins ara és de 10 GB de dades. "Disposar de dades de qualitat és un actiu segur i de futur. Si la tecnologia canvia però nosaltres tenim dades, ens podem actualitzar de manera fàcil", ha explicat la coordinadora. Per aconseguir això, cal una infraestructura de recollida de dades a través d'actors com l'administració, la CCMA, els mitjans o les editorials. "Hem de saber reaccionar als avenços tecnològica i hem de detectar i donar resposta a les noves necessitats", ha apuntat Villegas.

Els tres àmbits d'actuació d'AINA són les dades, el processament de les dades i els models. La infraestructura i els resultats d'aquest projecte és el que ha d'utilitzar la indústria per desenvolupar i comercialitzar les aplicacions i els assistents de veu, que seran utilitzats pels ciutadans i les institucions i empreses. "Amb tot això aconseguim la digitalització plena del català", ha reblat Villegas. 

Dos anys de projecte
AINA va començar el 2020 i fins ara ja ha aconseguit un primer corpus textual de català. El 2020 es van fer els primers models de la llengua. L'any passat es va crear el Catalan Language Understanding Benchmark (CLUB) i es va començar el primer corpus de veu i la segona versió del ParlamentParla, amb 611 hores de veu. De cara a 2022, es comença amb una campanya de recollida de veu amb la plataforma Common Voice, i amb la col·Laboració de SoftCatalà, UPC, la UOC i altres institucions i organismes. El repte d'aquest any és "escalar i muscular" AINA, incrementar el corpus textual i el corpus de veu, amb dades de la CCMA i de ràdios locals, per tenir una representativitat de variants dialectals.