Una investigació de la Universitat de Nova York, ha inserit els seus algorismes "en la ment d'un nadó," perquè els seus sistemes d'IA s'instrueixin en el mètode d'aprenentatge dels nadons i siguin molt més eficaços. Els nens necessiten menys dades que els sistemes d'aprenentatge automàtic per dominar un llenguatge perquè són capaços d'associar objectes amb experiències: per això la IA no capta acudits o el sarcasme.

Durant 18 mesos de la vida del Sam, un nen australià, han recollit 61 hores d'imatges i enregistraments d'àudio que han servit per generar un model de llenguatge per a les IA. Sam ha portat un casc amb sensors i càmera entre els 6 i els 25 mesos. No sempre estava actiu. Es van gravar 61 hores de la vida del nen, en què va estar exposat a 250.000 paraules. Així ha estat com Sam ha servit per ensenyar a parlar a les intel·ligències artificials. Els nadons aprenen a parlar a una velocitat sorprenent. Abans de fer un any diuen la seva primera paraula i als tres ja es defensen el dia a dia amb la seva llengua materna. Són l'enveja de molts adults que volen aprendre un nou idioma i triguen molt més a arribar a aquest nivell, si ho aconsegueixen. I també són un model a seguir per a la intel·ligència artificial, que necessita moltes més dades per aprendre un idioma. Per això un equip d'investigadors de la Universitat de Nova York ha posat els seus algoritmes a la pell d'un nadó, Sam, per veure què són capaços d'aprendre. No literalment, és clar: ho han fet ensenyant al sistema vídeos gravats des de la perspectiva del nen, usant un casc amb càmera.

Els resultats de l'estudi mostren que el sistema aprèn paraules relacionant-les amb les coses que el nen veu i escolta a la seva vida diària. És un avenç per construir intel·ligències artificials que aprenguin de forma més eficient i similar a com ho fem les persones. Les llengües naturals (com l'espanyol o l'anglès) són formes de comunicació que les persones desenvolupem espontàniament. Això les diferencia de les llengües artificials, com els llenguatges de programació o el llenguatge matemàtic, creades a propòsit per a un fi.

Normalment, a les llengües artificials tot té un significat únic que no admet discussió: si diem 1+1=2, no hi ha dubte de què volem dir. Però això no és així en les llengües naturals: si diem “ens veiem al banc”, hem quedat en un seient del parc o on guardem els diners? L'ambigüitat fa que les llengües naturals siguin especialment difícils per a les màquines. També per això els acudits, la poesia i el sarcasme donen problemes als ordinadors.

Ja a la dècada dels 50 va sorgir l'interès perquè els ordinadors poguessin treballar amb llenguatge humà (per exemple, l'Experiment Georgetown, per traduir entre anglès i rus, de gran interès a la Guerra Freda). Per aconseguir-ho, lingüistes i informàtics descrivien l'estructura de l'idioma escrivint regles sintàctiques basades en les teories de Chomsky. Per exemple, una regla podria dir: una oració es compon de subjecte (que va primer) i predicat (que va després). Però podien caldre milers de regles.

Als anys 80 es va produir un avenç important amb l'ús d'algorismes d'aprenentatge automàtic. Són algoritmes que aprenen mitjançant exemples com aquest: per traduir entre anglès i rus, donem milers de textos en anglès i les seves traduccions al rus. A partir d'aquí, s'ho fan per detectar patrons i aprendre per ells mateixos a traduir textos nous. Això fa el desenvolupament més fàcil (és més senzill aconseguir exemples que escriure una gramàtica) i millora els resultats, perquè poden tenir en compte el context. Però manté una limitació: cada algorisme així construït només val per a una cosa. Per exemple, un sistema de traducció només tradueix, no pot resumir textos ni respondre preguntes.

El següent gran salt es va fer a finals de la dècada del 2010: van sorgir els grans models de llenguatge, la base de ChatGPT. Són sistemes que aprenen a predir quina paraula és més probable que vingui després. Per exemple, a partir dels “Estats Units de”, un model de llenguatge podria predir “Amèrica”. Si després us demanem que afegiu una altra paraula, i una altra, serà capaç de generar un text coherent. Per aconseguir-ho només cal ensenyar-los molts textos, per exemple descarregats d'Internet.

Quina és la utilitat de predir la paraula següent? - Ningú sap gaire bé com funcionen, i, de fet, hi ha debat sobre si de veritat aquests sistemes entenen alguna cosa. Alguns científics defensen que actuen com a simples lloros, imitant el llenguatge humà sense entendre ni una paraula. Altres diuen que, malgrat basar-se en estadístiques sobre el text que han vist, sí que són capaces d'entendre'n el significat. Aquests grans models ja no estan limitats a una tasca, però porten problemes nous. Per entrenar un model com el darrer ChatGPT es fan servir bilions de paraules, una quantitat descomunal de text. Això requereix ordinadors de gran potència i memòria només a l'abast de grans empreses tecnològiques. I a sobre, consumeixen molta energia i contaminen

L'experiment amb Sam intenta resoldre la qüestió sobre si una IA pot aprendre el llenguatge com ho fan els nadonsAixò ens porta de tornada a Sam. Els nens només escolten unes desenes de milions de paraules en els tres primers anys de vida, moltíssimes menys que ChatGPT. Amb això en tenen prou per defensar-se en el seu idioma. Per què els sistemes d'IA necessiten moltes més dades? Una de les claus és que els bebès poden associar les paraules amb objectes i experiències. En assenyalar una pilota dient “pilota”, els ajudem a saber què vol dir la paraula. Els sistemes com ChatGPT no tenen aquesta ajuda, se les arreglen amb els textos en brut. D'aquí ve la rellevància de l'experiment amb Sam. Una IA pot aprendre el llenguatge com ho fan els nadons? Els resultats són prometedors i podrien portar, en el futur, a sistemes que necessitin moltes menys dades, energia i emissions que els actuals.

Aquest article va ser publicat originalment a The Conversation. Carlos Gómez Rodríguez és Catedràtic de Ciències de la Computació i Intel·ligència Artificial a la Universidade da Coruña - lavanguardia.com