La intel·ligència artificial (IA) segueix fent passos de gegant per fer indistingible la realitat de la ficció. Open AI, la companyia responsable de ChatGPT acaba de llançar Sora, el seu nou model d'IA generativa "que pot crear escenes realistes i imaginatives a partir d'instruccions de text", segons s'explica a la web del projecte. I en vista dels resultats és veritablement així.
Ho va anunciar ahir Sam Altman, director executiu d'Open IA, de X ia l'instant aquesta xarxa social es va omplir de vídeo de tota mena creats amb aquesta nova eina. Des d'escenes futuristes, a clips de dibuixos animats o escenes d'un poble de l'Oest americà que colen perfectament com a filmació antiga o vintage. De moment només fins a un minut de durada i mitjançant instruccions textuals. Sora també pot allargar vídeos ja existents.
De moment està obert per a un petit grup d'“artistes visuals, dissenyadors i cineastes per obtenir comentaris sobre com fer avançar el model perquè sigui més útil per als professionals creatius”. D'altra banda, l'anomenat equip vermell d'Open AI (experts en àrees com ara desinformació i contingut que incita a l'odi i els prejudicis) està avaluant "àrees crítiques a la recerca de danys o riscos".
Però ja en aquest moment primerenc del seu desenvolupament, les capacitats de Sora són sorprenents, ja que és capaç de generar escenes complexes amb múltiples personatges, tipus específics de moviment i detalls precisos dels protagonistes i del fons. Segons els seus creadors, "el model comprèn no només el que l'usuari ha demanat al missatge, sinó també com existeixen aquestes coses al món físic".
Al gairebé mig centenar de vídeos generats amb Sora, que s'han publicat a la web del projecte, es mostren imatges amb personatges que resulten convincents i amb una gran consistència visual al llarg dels diferents plànols i preses que la IA també és capaç de generar. Això, segons els seus responsables, demostra que "el model té un profund coneixement del llenguatge, cosa que li permet interpretar indicacions amb precisió i generar personatges que expressen emocions vibrants".
Tot i això, en la seva versió actual i que es va donar a conèixer ahir, encara presenta algunes limitacions. Encara té dificultats, com reconeixen des d'Open AI, "per simular amb precisió la física d'una escena complexa i és possible que no comprengui casos específics de causa i efecte. Per exemple, una persona pot donar una mossegada a una galeta, però després, és possible que la galeta no tingui la marca de la mossegada". De la mateixa manera, "també pot confondre els detalls espacials d'un prompt, per exemple, barrejant esquerra i dreta -com s'observa al vídeo de l'home corrent a la cinta d'exercicis-, i pot tenir dificultats amb descripcions precises d'esdeveniments que tenen lloc al llarg del temps, com seguir una trajectòria de càmera específica".
Com sol ser habitual davant de qualsevol salt endavant de la IA, sorgeixen immediatament les preocupacions del mal ús que es pot fer d'una eina com Sora. En aquest sentit, cal recordar que Sora no és la primera eina generativa de vídeos. El laboratori Midjourney té un bot a Discord amb què és possible generar vídeos curts mitjançant instruccions textuals. O Stable Diffussion, un altre model amb què també es poden crear vídeos, encara que de només entre 2 i 5 segons.
En qualsevol cas, les capacitats d'aquests dos models queden molt enrere de les de Sora, a la qual -per exemple- se li podria llançar la petició que fes un vídeo de soldats de l'exèrcit que es volgués entrant a un hospital i matant metges i pacients i que les imatges tinguessin el mateix estil de les que emeten les televisions de tot el món en qualsevol conflicte bèl·lic. A partir d'aquest exemple, la llista de mals usos imaginables és llarguíssima, encara que no difereixen gaire dels més habituals sempre que parlem dels conflictes ètics de qualsevol model d'IA.
Per aquesta raó, Open AI ha explicat que ja està prenent precaucions en aquest sentit i assegura que ja està treballant en la creació de “eines per ajudar a detectar contingut enganyós, com un classificador de detecció que pot indicar quan Sora va generar un vídeo”, basant-se en l'experiència adquirida en el desenvolupament de DALL·E3, el model de creació d'imatges d'Open AI, que també són aplicables a Sora. D'aquesta manera, quan Sora estigui integrat en algun altre producte d'Open AI i s'obri al públic, es rebutjaran les sol·licituds d'ingrés de text que demanin generar vídeos que mostrin "violència extrema, contingut sexual, imatges d'odi o imatges de celebritats," asseguren. Però des d'aquesta companyia reconeixen el que és inevitable i que malgrat investigacions i proves exhaustives, no podem predir totes les formes beneficioses en què les persones utilitzaran la nostra tecnologia, ni totes les formes en què n'abusaran",
En resum, que no sé a vosaltres, però a mi aquesta darrera innovació de la IA, m'acollona, per com es pot arribar a manipular qualsevol notícia, qualsevol informació fins a un punt que no podíem imaginar, i aquest és el problema si la IA ens supera estem perduts, perquè hi ha línies que no se li hauria de permetre creuar, i ja ens podem imaginar que per més que els creadors de SORA, amb la boca petita diguin que la podran controlar, sabem que no serà així a la pràctica. Houston, tenim un problema amb SORA. - Albert Molins, a la vanguardia.