SOFTWARE-UL CREEAZĂ O IMAGINE CARE SPUNE TOTUL

În fiecare zi, utilizatorii încarcă mai mult de 350 de milioane de fotografii pe Facebook. Acest flux de imagini i-a determinat pe analiști să estimeze că 10% din cele 3, 5 trilioane de fotografii ale lumii au fost făcute în ultimul an. Toate aceste date care inundă Web-ul înseamnă că, dacă căutați o anumită imagine sau obiect - cum arată o pisică tabby portocalie, de exemplu - sunteți inundat pozitiv cu rezultatele căutării.

Luna trecută, cercetătorii de la Universitatea din California, Berkeley au dezvăluit un nou software, MediaExplorer, care va permite utilizatorilor să vadă imaginea „medie” care reprezintă ceea ce caută. În loc de o imagine în valoare de o mie de cuvinte, este o imagine în valoare de o mie de sau mai multe - poze.

„Când veți intra într-o căutare de imagini Google, veți trece prin pagini și pagini de imagini”, explică Jun-Yan Zhu, student absolvent al UC Berkeley și autor principal al lucrării, prezentat în acest an la Conferința internațională și expoziția de grafică pe computer și tehnici interactive în Vancouver. „Este uriaș și greu de rezumat; nu poți înțelege ce se întâmplă.

Pentru oferta sa inițială, Zhu și echipa sa au colectat fotografii prin căutări de imagini Flickr, Google și Bing. Software-ul este suficient de redus pentru a rula pe un desktop mediu și poate zdrobi aproximativ 10.000 de imagini simultan.

Utilizatorii își perfecționează căutările în câteva moduri diferite. Aceștia pot schița și colora o formă, similară cu desenul din Adobe Photoshop sau Illustrator, pentru a-și clarifica rezultatul obținut de imaginea medie. De exemplu, colorarea fundalului unei imagini medii a Turnului Eiffel va auto-selecta imaginea medie pentru a trage doar fotografii făcute noaptea. Sau, puteți desena linii în unghi pentru a controla orientarea unui fluture în compozit.

Rafinând culorile dintr-o imagine de tip „Explorator mediu” a podului suspinelor, puteți schimba scena de la zi la amurg la noapte. (Curtoazie UC Berkeley)

Odată creată o imagine medie, proces care poate dura până la un minut, utilizatorii pot perfecționa în continuare rezultatul folosind ceea ce echipa numește Modul Explorer. În acest mod, făcând clic pe o anumită parte a unei imagini - să zicem, nasul unei pisici - va dezvălui alte opțiuni sau rafinamente comune pentru acel loc - poate nasuri albastre sau negre, sau cele rotunjite în loc de unghi. Într-un videoclip demonstrativ, de exemplu, echipa a perfecționat o imagine a copiilor pe poala lui Moș Crăciun, selectând doar imagini în care Moșul are câte un copil pe fiecare braț.

În cazul în care sistemul va deveni deosebit de puternic, spune Zhu, este ca un instrument de instruire a algoritmilor de viziune pe calculator, precum cei angajați de Google Goggles sau aplicațiile Amazon Firefly, care pot identifica ceea ce indică o cameră foto. „În domeniul viziunii computerului, oamenii cheltuiesc mulți bani pentru a adota obiecte”, explică el. „Acum puteți aplica adnotarea la imaginea medie. Ideea este că trebuie să lucrați doar la o singură imagine pentru a propaga toate imaginile dintr-un set de date. ”

Rafinând modurile unui rezultat al căutării, cercetătorii pot găsi rase specifice de pisici, inclusiv (de la stânga la dreapta) Ragdoll, Siamese, Maine Coon și Sfinx. (Curtoazie UC Berkeley)

Crearea operei de artă este fructul cu un nivel scăzut pentru MediaExplorer. Echipa s-a inspirat de la artiștii nou-media, precum Jason Salavon, care a creat cu atenție fotografii medii de mână. Acesta ar putea fi, de asemenea, utilizat pentru a crea un plug-in Facebook care permite utilizatorilor să tinker cu imaginea medie a lor.

Aspirațiile cercetătorilor sunt și mai ample și de impact. Sociologii ar putea folosi sistemul pentru a detecta și a cerceta tendințele sociale; de exemplu, o imagine medie ar putea dovedi că miresele stau cel mai adesea în dreptul mirelui în portretele de nuntă. MediaExplorer ar putea fi, de asemenea, un instrument util pentru analiștii media care încearcă să disecă acoperirea televizată - se schimbă postura lui Stephen Colbert atunci când vorbește despre George W. Bush față de Barack Obama?

Permițând utilizatorilor să interacționeze intuitiv cu datele vizuale, în loc să se străduiască să introducă șirul corect de cuvinte cheie, utilizatorii vor putea să pună la punct ceea ce consilierul Zhu și co-creatorul MediaExplorer, Alexei Efros, numește „gâtul de limbă”.

Echipa își imaginează o suită de instrumente personalizate concepute pentru sarcini specifice, greu de articulat. O aplicație de cumpărături, de exemplu, ar permite utilizatorului să păstreze pânza pe o pereche de tocuri cu culoarea exactă, forma călcâiului și înălțimea pe care o urmează. Zhu are în vedere un instrument care se integrează cu fluxul de lucru al artiștilor de schiță al poliției, permițând unui martor să caute bazele de date faciale care să se potrivească cu făptuitorul și să construiască un portret compozit.

O versiune de bază a MeanExplorer va fi lansată în această toamnă.