https://frosthead.com

De ce tendințele gripei Google nu pot urmări gripa (totuși)

În 2008, Google a anunțat un nou serviciu intrigant numit Google Flu Trends. Inginerii companiei au observat că anumite întrebări de căutare (cum ar fi cele care includ cuvintele "febră" sau tuse ") păreau să crească în fiecare sezon gripal. Ideea lor era să folosească frecvența acestor căutări pentru a calcula ratele de gripă la nivel național mai rapid decât ar putea fi efectuate cu date convenționale (care, în general, durează câteva săptămâni pentru a colecta și analiza), făcându-i pe oameni să știe când să ia măsuri de precauție suplimentare pentru a evita virusul.

Continut Asemanator

  • Cum ar putea ajuta modelele meteo și Google să prevadă sezonul gripei
  • Date mari sau prea multe informații?

Mass-media (inclusiv acest reporter) s-a grăbit să felicite Google pentru utilizarea atât de interesantă, inovatoare și de perturbare a datelor mari. Singura problema? Google Flu Trends nu a avut rezultate foarte bune.

Serviciul a supraestimat în mod constant ratele de gripă, în comparație cu datele convenționale colectate ulterior de CDC, estimând incidența gripei să fie mai mare decât a fost de fapt pentru 100 din 108 săptămâni între august 2011 și septembrie 2013. În ianuarie 2013, când ratele de gripă au atins valori maxime, dar estimările Google Flu Trends au fost de două ori mai mari decât datele reale, inexactitatea sa a început în sfârșit să strângă acoperirea presei.

Cea mai comună explicație pentru discrepanță a fost că Google nu a luat în considerare ridicarea în interogările legate de gripă care apar ca urmare a isteriei de gripă provocată de media care apare în fiecare iarnă. Însă, săptămâna aceasta în Știință, un grup de oameni de știință sociali condus de David Lazer propune o explicație alternativă: faptul că propriile modificări ale Google la algoritmul său de căutare sunt de vină.

Este recunoscut greu pentru străini să analizeze tendințele gripei Google, deoarece compania nu face publice termenii de căutare specifici pe care îi folosește ca date brute sau algoritmul particular pe care îl folosește pentru a converti frecvența acestor termeni în evaluări ale gripei. Dar cercetătorii au făcut tot posibilul să deducă termenii folosind Google Correlate, un serviciu care vă permite să priviți în timp ratele anumitor termeni de căutare.

Când cercetătorii au făcut acest lucru pentru o serie de întrebări legate de gripă în ultimii ani, au descoperit că câteva căutări cheie (cele pentru tratamente antigripale și cele care întreabă cum să diferențieze gripa de răceală) au urmărit mai îndeaproape cu Google Flu Estimări ale tendințelor decât cu ratele reale de gripă, în special atunci când Google a supraestimat prevalența bolii. Se pare că aceste căutări speciale ar putea fi o parte uriașă a problemei inexactității.

Există un alt motiv bun pentru a suspecta că ar putea fi cazul. În 2011, ca parte a unuia dintre modificările obișnuite ale algoritmului de căutare, Google a început să recomande termeni de căutare corelați pentru numeroase întrebări (inclusiv listarea unei căutări pentru tratamente antigripale după ce cineva Googled mulți termeni legați de gripă), iar în 2012, compania a început să furnizeze diagnostice potențiale. ca răspuns la simptomele din căutări (inclusiv enumerarea atât a „gripei”, cât și a „răcelii” după o căutare care a inclus sintagma „durere în gât”, de exemplu, care a solicitat un utilizator să caute modalitatea de a distinge între cele două). Aceste modificări, susțin cercetătorii, au scăzut probabil ratele căutărilor pe care le-au identificat ca fiind responsabile pentru supraestimările Google.

Desigur, dacă această ipoteză ar fi adevărată, aceasta nu ar însemna că Google Flu Trends este inevitabil sortită inexactității, doar că trebuie actualizată pentru a ține cont de schimbările constante ale motorului de căutare. Dar Lazer și ceilalți cercetători susțin că urmărirea gripei din datele mari este o problemă deosebit de dificilă.

Se pare că o proporție uriașă a termenilor de căutare care se corelează cu datele CDC privind ratele de gripă sunt cauzate nu de persoanele care au gripa, ci de un al treilea factor care afectează atât modelele de căutare, cât și transmiterea gripei: iarna. De fapt, dezvoltatorii Google Flu Trends au raportat că s-au găsit termeni particulari - cei legați de baschetul de liceu, de exemplu - care au fost corelați cu ratele gripei de-a lungul timpului, dar în mod clar nu aveau nicio legătură cu virusul.

De-a lungul timpului, inginerii Google au eliminat manual mulți termeni care se corelează cu căutările gripei, dar nu au nicio legătură cu gripa, dar modelul lor a fost în mod clar încă dependent de tendințele de căutare sezonieră fără gripe - parte din motivul pentru care Google Flu Trends nu a reușit să reflecte 2009 epidemia de H1N1, care s-a întâmplat în timpul verii. În special în versiunile sale anterioare, Google Flu Trends a fost „parte detector de gripă, parte detector de iarnă”, scriu autorii lucrării Science .

Dar toate acestea pot fi o lecție pentru utilizarea datelor mari în proiecte precum Google Flu Trends, mai degrabă decât un rechizitoriu general, spun cercetătorii. Dacă este actualizat în mod corespunzător pentru a ține cont de modificările aduse algoritmului Google și analizat riguros pentru a elimina factorii pur sezonieri, ar putea fi util în documentarea ratelor de gripă la nivel național - mai ales atunci când este combinat cu datele convenționale.

Ca un test, cercetătorii au creat un model care a combinat datele Google Flu Trends (care sunt esențiale în timp real, dar potențial inexacte) cu date CDC vechi de două săptămâni (care este datat, deoarece necesită timp pentru colectare, dar ar putea fi încă oarecum indicativ pentru ratele actuale ale gripei). Hibridul lor s-a potrivit cu datele fluide actuale și actuale cu mult mai îndeaproape decât tendințele gripei Google doar și au prezentat o modalitate de a obține aceste informații mult mai repede decât așteptarea datelor convenționale de două săptămâni.

"Analiza noastră despre Google Flu demonstrează că cele mai bune rezultate provin din combinarea informațiilor și tehnicilor din ambele surse", a declarat Ryan Kennedy, profesor de științe politice și coautor al Universității din Houston, într-un comunicat de presă. „În loc să vorbim despre o„ revoluție a datelor mari ”, ar trebui să discutăm despre o„ revoluție a datelor ”.

De ce tendințele gripei Google nu pot urmări gripa (totuși)