https://frosthead.com

Modul în care inteligența artificială ar putea revoluționa cercetarea muzeului arhivistic

Când vă gândiți la inteligența artificială, domeniul botanicii probabil nu este cel mai important în mintea voastră. Atunci când imaginezi setări pentru cercetare de calcul de ultimă oră, este posibil ca muzeele vechi de secol să nu se afle în top. Și totuși, un articol recent publicat în Biodiversity Data Journal arată că unele dintre cele mai interesante și mai atrăgătoare inovații în învățarea mașinilor nu au loc la nimic altceva decât Herbarium Național al Muzeului Național de Istorie Naturală din Washington, DC

Lucrarea, care demonstrează că rețelele neuronale digitale sunt capabile să distingă între două familii de plante similare cu o rată de precizie cu mult peste 90 la sută, implică tot felul de posibilități de udare a gurii pentru oamenii de știință și academicienii care vor merge mai departe. Studiul se bazează pe software bazat pe algoritmi de „învățare profundă”, care permit programelor de calculator să acumuleze experiență în același mod în care fac experții umani, crescându-și jocul de fiecare dată când rulează. În curând, această tehnologie ar putea permite analize comparative ale milioane de exemplare distincte din toate colțurile globului - o propunere care ar fi cerut anterior o cantitate de muncă umană de neintins.

„Această direcție de cercetare arată o mare promisiune”, spune profesorul de la Stanford, Mark Algee-Hewitt, o voce proeminentă în mișcarea de umanități digitale și director de facultate asistent la Centrul de analiză spațială și textuală al universității. „Aceste metode au capacitatea de a ne oferi cantități vaste de informații despre ceea ce conțin colecțiile”, spune el și „în acest sens, fac ca aceste date să fie accesibile”.

Aceste noi descoperiri se bazează pe anii de activitate desfășurați la Smithsonian Institution pentru digitalizarea sistematică a colecțiilor sale pentru accesul academic și public on-line și reprezintă o remarcabilă întâlnire interdisciplinară a minților: botaniștii, experții în digitalizare și oamenii de știință ai datelor au avut de jucat toate în aducerea acestora rezultate la lumină.

Povestea începe în octombrie 2015, când instalarea unui aparat de fotografiat și a benzii transportoare de sub Muzeul de Istorie Naturală a simplificat eforturile de a digitaliza colecția botanică din Smithsonian. În loc să fie nevoiți să scaneze manual fiecare floare presată și o mulțime de iarbă din depozitul lor, muncitorii ar putea acum să pună la coadă tablele întregi de mostre, să lase centura să-și lucreze magia și să le recupereze și să le re-catalogeze la capătul cozii. Un echipaj format din trei persoane a supravegheat centura de la debutul său și trece prin aproximativ 750.000 de exemplare în fiecare an. Înainte de mult, inventarul de erburi al Smithsonianului, cu cinci milioane de exemplare puternic, va fi complet online.

Fiecare exemplar este etichetat cu o carte de identificare completă, care oferă informații despre proveniența sa, precum și date statistice esențiale. Conținutul acestor carduri a fost transcris și încărcat alături de imaginile digitale, oferind o vedere cuprinzătoare a fiecărui articol din colecție pentru cei cu înclinația de a merge în căutare.

În arhiva botanică digitalizată a lui Smithsonian, imaginile de înaltă rezoluție ale specimenelor sunt împerecheate cu transcrierile etichetelor de identificare utile aplicate acestora. În arhiva botanică digitalizată a lui Smithsonian, imaginile de înaltă rezoluție ale specimenelor sunt împerecheate cu transcrierile etichetelor de identificare utile aplicate acestora. (Muzeul Național de Istorie Naturală)

„Face colecția noastră accesibilă tuturor celor care au un computer și o conexiune la internet”, spune președinția de botanică a muzeului, Laurence Dorr, „ceea ce este excelent pentru a răspunde la anumite întrebări.” Chiar și așa, Dorr a descoperit că nu poate agita un sentiment de potențial neexploatat. . Sigur, s-au pus acum la dispoziția comunității online cantități masive de date-eșantion, dar analizarea acestora în total a rămas fantezistă. Căutarea anumitor exemplare și categorii mici de exemplare a fost destul de ușoară, dar Dorr s-a întrebat dacă există o modalitate de a folosi datele pentru a trage concluzii despre mii de exemplare. „Ce poți face cu aceste date?” Își amintește întrebându-se. Un bărbat pe nume Adam Metallo a dat curând un răspuns convingător.

Metallo, un ofițer cu programul de digitalizare al programului Smithsonian, a participat la o conferință la care gigantul tehnologic NVIDIA - dragă a jucătorilor de PC de pretutindeni - a prezentat unități de procesare grafică de nouă generație sau GPU-uri. Metallo era acolo în căutarea unor modalități de îmbunătățire a capacităților de redare digitală a lui Smithsonian 3D, dar a fost o informație în mare parte fără relații care i-a atras atenția și s-a blocat cu el. Pe lângă faptul că a generat imagini 3D dinamice, de înaltă fidelitate, i s-a spus, GPU-urile NVIDIA s-au potrivit pentru analizele de date mari. În special, GPU-urile crescute au fost exact ceea ce era necesar pentru recunoașterea intensivă a modelelor digitale; mulți algoritmi de învățare automată au fost optimizați pentru platforma NVIDIA.

Metallo a fost intrigat instantaneu. Această tehnologie de „învățare profundă”, desfășurată deja în sectoare de nișă precum dezvoltarea autovehiculelor și radiologia medicală, a avut un potențial mare pentru lumea muzeelor ​​- care, după cum subliniază Metallo, constituie „cel mai mare și mai vechi set de date la care avem acum acces la."

„Ce înseamnă pentru marile seturi de date pe care le creăm la Smithsonian prin digitalizare?” Metallo voia să știe. Întrebarea lui oglinda perfect pe cea a lui Laurence Dorr și, odată ce cei doi s-au conectat, scântei au început să zboare. „Colecția de botanică a fost una dintre cele mai mari colecții la care lucram de curând”, își amintește Metallo. S-a sugerat o colaborare.

În timp ce multe forme de învățare automată cer ca cercetătorii să înscrie indicatoarele matematice cheie în imaginile care urmează să fie analizate - un proces palpitant care se ridică la ținerea mâinii computerului - algoritmi moderni de învățare profundă pot învăța ei înșiți care pot să caute pe locul de muncă, economisind timp și deschiderea ușii la anchete la scară mai mare. Cu toate acestea, scrierea unui program de învățare profundă specific Smithsonian și calibrarea lui pentru întrebări discrete de cercetare botanică a fost o afacere complicată - Dorr și Metallo au avut nevoie de ajutorul oamenilor de știință de date pentru a face viziunea lor realitate.

Oamenii de știință de date compun exemplare de formare pentru rețeaua neuronală în timpul ceea ce Paul Frandsen își amintește ca Oamenii de știință de date compun exemplare de formare pentru rețeaua neuronală în timpul ceea ce Paul Frandsen își amintește drept „o zi rece a lunii ianuarie”. (Muzeul Național de Istorie Naturală)

Unul dintre specialiștii pe care i-au adus la bord a fost omul de știință al datelor de cercetare Smithsonian, Paul Frandsen, care a recunoscut imediat potențialul în crearea unei rețele neuronale bazate pe GPU NVIDIA, pe care să le aducă în evidență colecția de botanică. Pentru Frandsen, acest proiect a simbolizat un prim pas cheie pe un drum minunat și neexplorat. În curând, spune el, „vom începe să căutăm modele morfologice la scară globală și vom putea răspunde la aceste întrebări cu adevărat mari, care ar fi luat în mod tradițional mii sau milioane de ore umane, căutând literatura de specialitate și clasificarea lucrurilor. Vom putea să folosim algoritmi care să ne ajute să găsim acele modele și să aflăm mai multe despre lume. "

Descoperirile publicate sunt o dovadă izbitoare a conceptului. Generat de o echipă formată din nouă conduse de botanistul de cercetare Eric Schuettpelz și oamenii de știință de date Paul Frandsen și Rebecca Dikow, studiul își propune să răspundă la două întrebări la scară largă despre învățarea mașinilor și herbariul. Primul este cât de eficientă poate fi o rețea neuronală antrenată la sortarea epruvetelor colorate cu mercur din cele nesuferite. Al doilea, punctul culminant al lucrării, este cât de eficientă poate fi o astfel de rețea care diferențiază membrii a două familii de plante superficial asemănătoare - și anume, familiile de fericite Lycopodiaceae și Selaginellaceae .

Primul proces a impus ca echipa să parcurgă mii de exemplare în avans, observând definitiv care erau contaminate vizibil cu mercur (un vestigiu al tehnicilor de conservare botanice învechite). Ei doreau să fie siguri că știu cu 100% procent de certitudine care erau pătate și care nu erau - în caz contrar, evaluarea exactității programului nu va fi posibilă. Echipa cireșă a ales aproape 8.000 de imagini cu probe curate și încă 8.000 de probe colorate cu care să se antreneze și să testeze computerul. În momentul în care au terminat de modificat parametrii rețelei neuronale și au retras toată asistența umană, algoritmul a clasificat specimenele pe care nu le mai văzuse până acum cu o precizie de 90%. Dacă cele mai ambigue exemplare - de exemplu, cele în care colorarea a fost minimă și / sau foarte slabă - au fost aruncate, această cifră a crescut la 94%.

Acest rezultat implică faptul că software-ul de învățare profundă ar putea ajuta curând botanii și alți oameni de știință să evite pierderea de timp în sarcinile de sortare obositoare. „Problema nu este că un om nu poate determina dacă un exemplar este pătat sau nu de mercur”, precizează Metallo, ci mai degrabă că „este dificil de a sorta și de a descoperi manual unde există contaminarea” și nu este sensibil la faceți acest lucru din punct de vedere al managementului timpului. Din fericire, învățarea mașinii ar putea transforma o scurgere de timp majoră în cel mult câteva zile de analiză automată rapidă.

Pășirea peste exemplare necesită multă energie și face dificilă tragerea de concluzii la scară largă. Acum, analizele de date mari oferă muzeelor ​​noi modalități de abordare a colecțiilor lor. Pășirea peste exemplare necesită multă energie și face dificilă tragerea de concluzii la scară largă. Acum, analizele de date mari oferă muzeelor ​​noi modalități de abordare a colecțiilor lor. (Arnold Arboretum)

Partea de discriminare a speciilor din studiu este și mai interesantă. Cercetătorii au instruit și au testat rețeaua neuronală cu aproximativ 9.300 de mușchi de club și 9.100 de probe de spikemoss. Ca și în cazul experimentului de colorare, aproximativ 70 la sută dintre aceste probe au fost utilizate pentru calibrarea inițială, 20 la sută au fost utilizate pentru rafinare, iar 10 la sută final au fost utilizate pentru a evalua formal acuratețea. Odată ce codul a fost optimizat, rata de reușită a computerului de a face distincția între cele două familii a fost de 96% - și aproape perfectă de 99 la sută dacă s-au omis mostrele cele mai complicate.

Într-o zi, speculează Frandsen, programe de genul acesta ar putea gestiona clasificarea preliminară a specimenelor în muzeele de pe glob. „În niciun caz nu cred că acești algoritmi vor face ceva pentru a înlocui curatorii”, el observă repede, „dar în schimb, cred că pot ajuta curatorii și oamenii implicați în sistematică să fie mai productivi, astfel încât își pot face munca mult mai repede."

Succesul rețelei neuronale în acest studiu deschide, de asemenea, calea pentru testarea rapidă a ipotezelor științifice în colecțiile masive. Dorr vede în concluziile echipei posibilitatea de a efectua comparații morfologice ample ale eșantioanelor digitalizate - comparații care ar putea duce la descoperiri științifice semnificative.

Asta nu înseamnă că învățarea profundă va fi un glonț de argint în cercetarea de peste tot. Mark Algee-Hewitt, de la Stanford, subliniază că „este aproape imposibil să reconstruim de ce și cum o rețea neuronală ia deciziile” odată ce a fost condiționată; determinările lăsate programelor de calculator ar trebui să fie întotdeauna necomplicate și verificabile în natură, dacă trebuie să fie de încredere.

„Evident, ” spune Dorr, un program de calculator autonom „nu va testa teste pentru relații genetice, lucruri de genul” - cel puțin oricând în viitorul apropiat. „Dar putem începe să aflăm despre distribuția caracteristicilor pe regiune geografică sau pe unități taxonomice. Și asta va fi cu adevărat puternic. ”

Mai mult decât orice, această cercetare este un punct de săritură. Este clar acum că tehnologia de învățare profundă are o mare promisiune pentru oamenii de știință și pentru ceilalți universitari din întreaga lume, precum și pentru publicul curios pentru care produc cunoștințe. Ceea ce rămâne este o activitate de urmărire riguroasă.

„Acesta este un pas mic”, spune Frandsen, „dar este un pas care ne spune cu adevărat că aceste tehnici pot lucra pe exemplare digitalizate de muzeu. Suntem încântați să înființăm mai multe proiecte în următoarele luni, pentru a încerca să-i testăm puțin mai mult limitele. "

Modul în care inteligența artificială ar putea revoluționa cercetarea muzeului arhivistic