În 1854, ca răspuns la o epidemie de holeră devastatoare, care traversa Londra, medicul britanic John Snow a introdus o idee care va revoluționa domeniul sănătății publice: harta epidemiologică. Înregistrând cazuri de holeră în diferite cartiere ale orașului și plasându-le pe o hartă bazată pe reședințele pacienților, el a descoperit că o singură pompă de apă contaminată era responsabilă pentru o mare parte a infecțiilor.
Harta l-a convins - și, în cele din urmă, autoritățile publice - că teoria miasmei bolii (care susținea că bolile se răspândesc prin gaze nocive) era falsă și că teoria germenilor (care afirmau în mod corect că microorganismele trebuie să fie de vină) era adevărată. Au pus un blocaj pe mânerul pompei responsabile de focar, semnalând o schimbare de paradigmă care a schimbat permanent modul în care ne ocupăm de bolile infecțioase și, astfel, de salubrizare.
Tehnologia de mapare este destul de diferită, la fel ca boala, dar există o anumită similitudine între harta lui Snow și un nou proiect realizat de un grup de cercetători condus de Henry Kautz de la Universitatea din Rochester. Prin crearea unor algoritmi care pot detecta tendințele gripei și pot face predicții bazate pe cuvinte cheie în tweet-urile geotagged disponibile public, aceștia adoptă o nouă abordare pentru studierea transmiterii bolii - una care ar putea schimba modul în care studiem și urmărim mișcarea bolilor în societate. .
„Ne putem gândi la oameni ca la senzori care privesc lumea din jurul lor și apoi raportează ceea ce văd și experimentează pe social media”, explică Kautz. „Acest lucru ne permite să facem măsurători detaliate pe o scară a populației și nu necesită o participare activă a utilizatorilor.”
Cu alte cuvinte, când vom arăta că tocmai am fost lăsați de o tuse dureroasă și de o febră, oferim în mod involuntar date bogate pentru un enorm experiment de sănătate publică, informații pe care cercetătorii le pot folosi pentru a urmări mișcarea bolilor precum gripa în rezoluție înaltă și în timp real.
Proiectul lui Kautz, numit SocialHealth, a folosit tweet-uri și alte tipuri de social media pentru a urmări o serie de probleme de sănătate publică - recent, acestea au început să folosească tweet-uri pentru a monitoriza cazurile de intoxicații alimentare la restaurantele din New York, prin logarea tuturor celor care au postat tweeturi geotagged de la un restaurant, apoi urmărirea tweet-urile lor pentru următoarele 72 de ore, verificând mențiuni de vărsături, diaree, dureri abdominale, febră sau frisoane. În acest sens, au depistat 480 de cazuri probabile de intoxicații alimentare.
Dar, pe măsură ce se schimbă anotimpul, munca lor urmărește virusul gripal care este cel mai deschis la ochi. Tendințele gripei Google au căutat în mod similar să folosească căutătorii Google pentru a urmări mișcarea gripei, dar modelul a supraestimat foarte mult focarul de anul trecut, poate pentru că acoperirea mediatică a gripei a determinat oamenii să înceapă să facă interogări legate de gripă. Analiza Twitter reprezintă un nou set de date cu câteva calități - o rezoluție geografică mai mare și capacitatea de a surprinde mișcarea unui utilizator în timp - care ar putea oferi predicții mai bune.
Pentru a începe proiectul de urmărire a gripei, cercetătorii SocialHealth s-au uitat în mod special la New York, colectând în jur de 16 milioane de tweet-uri geotagged publice pe lună de la 600.000 de utilizatori pentru trei luni. Mai jos este un interval de timp pentru o zi de Twitter din New York, cu diferite culori reprezentând frecvențe diferite de tweet-uri în acea locație (albastru și verde înseamnă mai puține tweet-uri, portocaliu și roșu înseamnă mai mult):
Pentru a folosi toate aceste date, echipa sa a dezvoltat un algoritm care determină dacă fiecare tweet reprezintă un raport al simptomelor asemănătoare gripei. Anterior, alți cercetători făcuseră acest lucru pur și simplu căutând cuvinte cheie în tweet-uri („bolnav”, de exemplu), dar echipa sa a constatat că abordarea duce la falsuri pozitive: Mulți mai mulți utilizatori au scris că sunt bolnavi de teme decât sunt simtindu-se bolnav.
Pentru a explica acest lucru, algoritmul echipei sale caută trei cuvinte la rând (în loc de unul) și consideră cât de des este o secvență indicativă a unei boli, pe baza unui set de tweeturi pe care le-ar fi etichetate manual. Expresia „bolnav de gripă”, de exemplu, este puternic corelată cu boala, în timp ce „bolnav și obosit” este mai puțin. Unele cuvinte particulare - cefalee, febră, tuse - sunt strâns legate de boală indiferent de secvența de trei cuvinte din care fac parte.
Odată ce aceste milioane de tweet-uri au fost codificate, cercetătorii ar putea face câteva lucruri interesante cu ele. Pentru început, aceștia au analizat schimbările în tweet-urile legate de gripă de-a lungul timpului și le-au comparat cu nivelurile de gripă așa cum a raportat CDC, confirmând că tweet-urile au surprins cu exactitate tendința generală a ratelor gripei. Cu toate acestea, spre deosebire de datele CDC, acestea sunt disponibile în timp real, în loc de o săptămână sau două după fapt.
Dar, de asemenea, s-au aprofundat, analizând interacțiunile dintre utilizatori diferiți - așa cum sunt reprezentate de doi utilizatori care trimit un tweeting din aceeași locație (rezoluția GPS este de aproximativ jumătate de bloc de oraș) în aceeași oră - pentru a modela cât de probabil este ca o persoană sănătoasă s-ar îmbolnăvi după ce a intrat în contact cu cineva cu gripă. Evident, două persoane care au făcut un tweet din același bloc la 40 de minute distanță nu s-au întâlnit neapărat în persoană, dar șansele ca acestea să fi fost întâlnite sunt puțin mai mari decât doi utilizatori aleatori.
Drept urmare, când te uiți la un set de date suficient de mare de interacțiuni, apare o imagine a transmisiei. Ei au descoperit că dacă un utilizator sănătos întâlnește 40 de alți utilizatori care se raportează ca bolnavi cu simptome de gripă, șansa lui de a obține simptome de gripă a doua zi crește de la mai puțin de un procent la 20 la sută. Cu 60 de interacțiuni, acest număr crește până la 50 la sută.
Echipa s-a uitat, de asemenea, la interacțiunile pe Twitter în sine, izolând perechi de utilizatori care se urmăresc reciproc și numindu-le „prietenii”. Chiar dacă multe relații Twitter există doar pe Web, unele corespund interacțiunilor din viața reală și au descoperit că un utilizator care are zece prieteni care se raportează ca bolnavi au 28% mai multe șanse să se îmbolnăvească a doua zi. În total, folosind ambele aceste tipuri de interacțiuni, algoritmul lor a fost capabil să prezice dacă o persoană sănătoasă s-ar îmbolnăvi (și ar fi tweet despre ea) cu o precizie de 90%.
Suntem încă în primele etape ale acestei cercetări și există o mulțime de limitări: majoritatea oamenilor încă nu folosesc Twitter (da, într-adevăr) și, chiar dacă se întâmplă, s-ar putea să nu le spună că se îmbolnăvește.
Dar dacă acest tip de sistem ar putea fi dezvoltat în continuare, este ușor să ne imaginăm tot felul de aplicații. Smartphone-ul dvs. v-ar putea avertiza automat, de exemplu, dacă ați petrece prea mult timp în locurile ocupate de persoanele cu gripă, vă rugând să mergeți acasă pentru a vă opri în calea infecției. Locuitorii unui întreg oraș ar putea fi chiar avertizați dacă ar fi în pragul unui focar.
În ciuda celor 150 de ani în care am fost îndepărtați de evoluția de cartografiere a bolii lui John Snow, este clar că mai există aspecte ale informațiilor despre boală pe care nu le înțelegem pe deplin. Acum, ca atunci, cartografierea datelor ar putea ajuta la obținerea răspunsurilor.