„MONA LISA” PRINDE VIAȚĂ ÎN „PORTRETUL VIU” GENERAT DE COMPUTER | ȘTIRI INTELIGENTE | SMITHSONIAN - ȘTIRI INTELIGENTE, ȘTIRI ȘI ARTE INTELIGENTE ȘI CULTURĂ, IDEI ȘI INOVAȚII DE ȘTIRI INTELIGENTE

Seria Harry Potter s-a obișnuit cu ideea de portrete vii cu tablourile sale vorbitoare și fotografii în mișcare. Însă săptămâna trecută, când un „portret viu” generat de AI de pe Mona Lisa a lui Leonardo da Vinci a început să facă tururile pe web, mulți oameni au fost uimiți când celebrul portret și-a mișcat buzele și s-au uitat în jur.

Portretul animat al Lisa Gherardini a fost unul dintre mai multe „noi modele de cap de vorbă” - cunoscute în mod obișnuit drept „adâncuri” - create de cercetători de la AI Center Samsung din Moscova și de la Institutul de Știință și Tehnologie Skolkovo. Folosind doar câteva cadre de referință sau chiar o singură imagine, cercetătorii au făcut, de asemenea, profunzimi ale unor celebrități precum Oprah, au adus la viață instantanee simple ale lui Marilyn Monroe și Albert Einstein și au creat noi expresii pentru imagini celebre precum Vermeer's Girl with a Pearl Earring .

Cercetătorii au postat metoda lor, pe care o numesc „puțină învățare la fotografii”, pe YouTube și într-o hârtie care nu a fost încă revizuită de la egal la egalitate pe depozitul de preprint arXiv.org. În timp ce detaliile devin destul de tehnice, Mindy Weisberger la LiveScience raportează că pentru a produce portretele vii, un tip de inteligență artificială numită rețea neuronală convoluțională se antrenează prin analizarea imaginilor de referință. Aplică apoi mișcările faciale dintr-o serie de cadre pe o imagine statică, precum Mona Lisa . Cu cât are mai multe unghiuri și imagini de referință, cu atât devine mai bun portretul viu. Potrivit lucrării, AI-ul ar putea produce „realism perfect” (măsurat prin capacitatea oamenilor de a discerne care dintre cele trei seturi de imagini erau realizări profunde) folosind doar 32 de imagini de referință.

Mona Lisa, desigur, este doar o singură imagine, așa că cele trei „portrete vii” ale capodoperei lui Leonardo sunt puțin neliniștitoare. Pentru animațiile scurte, rețeaua neuronală a observat trei videoclipuri diferite de antrenament, iar cele trei versiuni ale Mona Lisa bazate pe aceste cadre par să aibă personalități diferite. Dacă Leonardo și-ar fi pictat faimosul model din unghiuri diferite, sistemul ar fi putut produce un portret de viață și mai realist.

În timp ce animația animată Mona Lisa este distractivă, creșterea adâncurilor a generat îngrijorarea că asemănările generate de computer ar putea fi folosite pentru a defaima oameni, a stoca tensiuni rasiale sau politice și a eroda în continuare încrederea în mass-media online. „[Nu] ne subminează încrederea în toate videoclipurile, inclusiv în cele autentice”, scrie John Villasenor la The Brookings Institution. „Adevărul în sine devine evaziv, pentru că nu mai putem fi siguri de ceea ce este real și ce nu.”

În timp ce AI este folosit pentru a crea deepfakes, Villasenor spune că, cel puțin deocamdată, ea poate fi folosită și pentru identificarea unor adânciri căutând incoerențe care nu sunt aparente pentru ochiul uman.

Tim Hwang, directorul Inițiativei Harvard-MIT pentru Etică și Guvernare a AI, îi spune lui Gregory Barber de la Wired că nu suntem încă în punctul în care actorii răi pot crea profunde sofisticate pe laptopurile personale. „Nimic nu îmi sugerează că vei folosi doar asta la cheie pentru a genera acțiuni adânci acasă”, spune el. „Nu pe termen scurt, mediu sau chiar pe termen lung.”

Asta pentru că folosirea noului sistem Samsung este costisitoare și necesită expertiză. Dar articolul lui Barber subliniază că nu are nevoie de un videoclip foto-realist super-sofisticat realizat de o rețea neuronală pentru a păcăli oamenii. Saptamana trecuta, un videoclip manipulat care fusese încetinit pentru a o face pe purtătorul de cuvânt al SUA, Nancy Pelosi, să sune beat, a circulat pe rețelele de socializare.

În cele din urmă, însă, tehnologia va fi suficient de bună pentru ca actorii răi să poată produce profunde atât de convingătoare încât să nu poată fi detectate. Când vine acea zi, Hwang îi spune lui Wired, oamenii vor trebui să se bazeze pe verificarea faptelor și pe indicii contextuale pentru a afla ce este real și ce este fals. De exemplu, dacă jumătatea de zâmbet strâns a Monei Lisa devine un zâmbet dințat și încearcă să-ți vândă pasta de dinți de albire, este cu siguranță un fond profund.