https://frosthead.com

Poate un model statistic să prezice cu exactitate numărul de medalii olimpice?

Dacă cineva te-a rugat să prezici numărul de medalii pe care fiecare țară le va câștiga în cadrul Jocurilor Olimpice din acest an, probabil că încercați să identificați sportivii favorizați în fiecare eveniment, atunci câștigurile obținute de fiecare țară vor ajunge la un rezultat.

Tim și Dan Graettinger, frații din spatele companiei de extindere a datelor Discovery Corps, Inc., au o abordare destul de diferită. Ei ignoră în totalitate sportivii.

În schimb, modelul lor pentru jocurile de la Sochi privește zona geografică a fiecărei țări, PIB pe cap de locuitor, valoarea totală a exporturilor și latitudinea pentru a determina câte medalii va câștiga fiecare țară. În cazul în care vă întrebați, se prezice că SUA vor ieși în top, cu 29 de medalii în total.

Graettingers nu sunt primii care folosesc acest tip de abordare orientată de sus în jos pentru a prezice numărul de medalii. Daniel Johnson, profesor de economie din Colorado College, a construit modele similare pentru cele cinci olimpiade între 2000 și 2008 - obținând o precizie generală de 94 la sută în prezicerea numărului de medalii ale fiecărei țări - dar nu a creat un model pentru Sochi.

Dan și Tim sunt mai noi în joc. Dan - care de obicei lucrează la proiecte mai convenționale de extragere a datelor, de exemplu prezicerea potențialilor clienți ai unei companii - s-a interesat pentru prima dată să folosească modele pentru a prezice competiții în urmă cu patru ani, în timpul Jocurilor Olimpice de iarnă de la Vancouver. „Folosesc date despre trecut pentru a prezice viitorul tot timpul”, spune el. "În fiecare seară, arătau medalia la televizor și am început să mă întreb dacă am putea să o prezicem."

Chiar dacă performanțele sportivilor individuali pot varia imprevizibil, a argumentat el, ar putea exista o relație de ansamblu între caracteristicile fundamentale ale unei țări (dimensiunea, climatul și cantitatea de bogăție, de exemplu) și numărul de medalii pe care le-ar lua acasă. Acest tip de abordare nu ar putea spune care concurent ar putea câștiga un anumit eveniment, dar cu suficiente date, ar putea fi capabil să prezice cu exactitate numărul total de medalii pentru fiecare țară.

Inițial, el și fratele său au început să lucreze la dezvoltarea unui model preliminar pentru jocurile de la Londra din 2012. Pentru început, au colectat o gamă largă de diferite tipuri de seturi de date, de la geografia unei țări până la istoria, religia, bogăția și structura politică a acesteia. Apoi, au folosit analize de regresie și alte metode de cracare a datelor pentru a vedea care variabile au avut relația cea mai strânsă cu datele istorice ale medaliilor olimpice.

Ei au descoperit că, pentru jocurile de vară, un model care a încorporat produsul intern brut al țării, populația, latitudinea și libertatea economică generală (măsurată de indicele Fundației Heritage) s-a corelat cel mai bine cu numărul medaliilor fiecărei țări pentru cele două precedente Jocuri Olimpice de vară (2004) și 2008). Dar, la acel moment, modelul lor preliminar ar putea prezice doar ce țări vor câștiga două sau mai multe medalii, nu și numărul de medalii pe țară.

Au decis să-l îmbunătățească pentru jocurile de la Sochi, dar nu s-au putut baza pe modelul lor anterior, deoarece țările care au succes în timpul iernii diferă atât de mult de vară. Noul lor model de Sochi abordează problema prezicerii numărului de medalii în doi pași. Deoarece aproximativ 90 la sută dintre țări nu au câștigat niciodată o singură medalie la Olimpiada de iarnă (nu a câștigat niciun atlet din Orientul Mijlociu, America de Sud, Africa sau Caraibe), aceasta separă mai întâi cele zece la sută care sunt susceptibile să câștige cel puțin una, apoi prezice câți fiecare va câștiga.

„Unele tendințe sunt cam cele pe care le așteptați - pe măsură ce populația unei țări va crește, există probabilitatea ca aceasta să câștige o medalie”, spune Tim. "În cele din urmă, însă, aveți nevoie de unele utilaje statistice mai puternice, care pot macina printr-o mulțime de variabile și le pot clasifica în termenii care sunt cei mai predictivi."

În cele din urmă, au venit pe câteva variabile care separă cu exactitate nouăzeci la sută din țările care nu câștigă medalii de cele zece la sută care vor câștiga probabil: acestea includ rata de migrație, numărul de medici pe cap de locuitor, latitudinea, produsul intern brut și dacă țara a avut a câștigat o medalie în meciurile anterioare de vară (nicio țară nu a câștigat vreodată o medalie de iarnă fără să câștige una în vara precedentă, în parte, deoarece fondul câștigătorilor de vară este cu atât mai mare decât cel de iarnă). Prin derularea acestui model în ultimele două Jocuri Olimpice de iarnă, acest model a stabilit care națiuni au luat acasă o medalie cu o precizie de 96, 5%.

Cu 90 la sută dintre țări eliminate, Graettingers au folosit analize de regresie similare pentru a crea un model care a prezis, în mod retroactiv, câte medalii a câștigat fiecare țară rămasă. Analiza lor a constatat că o listă ușor diferită de variabile se potrivește cel mai bine datelor medalii istorice. Aceste variabile împreună cu predicțiile pentru jocurile Sochi sunt mai jos:

Imagine 4-Predict Medal Table 2 - cu border.png Previziunile modelului pentru jocurile Sochi (Graph courtesy Discovery Corps, Inc.)

Unele dintre variabilele care s-au dovedit corelative nu sunt un șoc imens - este logic că țările cu latitudine superioară se descurcă mai bine la evenimentele jucate în timpul jocurilor de iarnă - dar unele au fost mai surprinzătoare.

„Am considerat că populația, nu zona de teren, va fi importantă”, spune Dan. Nu sunt siguri de ce zona geografică se încadrează mai îndeaproape în datele istorice, dar s-ar putea datora faptului că câteva țări cu populație înaltă care nu câștigă medalii de iarnă (precum India și Brazilia) aruncă datele. Folosind în schimb suprafața terestră, modelul evită influența exterioară a acestor țări, dar păstrează în continuare o asociere aspră cu populația, deoarece, în general, țările cu suprafețe mai mari au populații mai mari.

Desigur, modelul nu este perfect, chiar și în potrivirea datelor istorice. „Abordarea noastră este abordarea de 30.000 de picioare. Există variabile pe care nu le putem contabiliza”, spune Tim. Unele țări au depășit în mod repetat previziunile modelului (inclusiv Coreea de Sud, care câștigă o cantitate disproporționată de evenimente de patinaj cu viteză scurtă), în timp ce altele au o performanță constantă (cum ar fi Marea Britanie, care pare să se descurce mult mai bine la evenimentele de vară care ar fi de așteptat, poate pentru că - în ciuda latitudinii sale - este mult mai multă ploaie decât zăpadă).

În plus, o excepție consecventă pe care au găsit-o la previziunile modelului este că țara gazdă livrează mai multe medalii decât ar face altfel, pe baza datelor. Atât Italia (în timpul jocurilor de la Torino din 2006), cât și Canada (în timpul jocurilor din Vancouver din 2010) au îndeplinit modelul, Canada stabilindu-și recordul de toate timpurile în câștigarea a 14 aururi.

Cu toate acestea, pe baza abordării lor statistic-riguroase, Graettingers sunt siguri că, în ansamblu, modelul lor va prezice numărul de medalii finale cu un grad de precizie relativ ridicat.

Cum se compara predicțiile lor cu cele ale experților care folosesc strategii mai convenționale? Experții nu diferă dramatic, dar au câteva țări cu succes tradițional (Norvegia, Canada, Rusia) câștigând un număr mai mare de medalii, împreună cu alte câteva (China, Olanda, Australia) câștigând fiecare câteva mai puține.

Până în prezent, Graettingers nu au pus niciun pariu pe previziunile lor, dar intenționează să compare ieșirea modelului lor cu cotele de pariere chiar înainte de începerea jocurilor. Dacă vor vedea vreo discrepanță pe care ar dori să o exploateze, ar putea sfârși prin a-și pune banii acolo unde le este gura.

Poate un model statistic să prezice cu exactitate numărul de medalii olimpice?