https://frosthead.com

Poate un model de computer să prezică prima rundă a nebuniei din luna martie a acestui an?

„Ferește-te de ideile lui Martie.” Da, este în sfârșit acea perioadă a anului: când împărații baschetului colegiului trebuie să se uite pe spate, ca nu cumva semințele de jos ale turneului să se lovească.

Înainte de 15 martie, milioane din întreaga lume își vor completa parantezele de martie nebunie. În 2017, ESPN a primit un număr record de 18, 8 milioane de paranteze.

Primul pas către o paranteză perfectă este alegerea corectă a primei runde. Din păcate, cei mai mulți dintre noi nu putem prezice viitorul. Anul trecut, doar 164 dintre parantezele prezentate au fost perfecte în prima rundă - mai puțin de 0, 001 la sută.

Au fost prezentate 18, 8 milioane de paranteze.

164 sunt perfecte după runda 1.

Iată pentru a supraîncărca. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18 martie 2017

Multe paranteze sunt agitate atunci când o echipă cu semințe inferioare supără semința superioară favorizată. De vreme ce domeniul s-a extins la 64 de echipe în 1985, cel puțin opt tulburări apar în medie în fiecare an. Dacă doriți să vă câștigați grupul de paranteze, mai bine alegeți cel puțin câteva supărări.

Suntem doi doctorat în matematică. candidații la Universitatea de Stat din Ohio care au pasiune pentru știința datelor și baschet. În acest an, am decis că ar fi distractiv să construim un program de calculator care să utilizeze o abordare matematică pentru a prezice tulburările din prima etapă. Dacă avem dreptate, o paranteză aleasă folosind programul nostru ar trebui să funcționeze mai bine în prima rundă decât media.

Oameni căzători

Nu este ușor să identifici care dintre jocurile din prima rundă vor avea ca rezultat o supărare.

Spuneți că trebuie să decideți între semința nr. 10 și numărul 7. Semința nr. 10 și-a stârnit neplăcerile în ultimele trei apariții la turnee, făcând chiar o dată Final Four. Semința nr. 7 este o echipă care a primit puțină sau fără acoperire națională; fanul casual nu a auzit niciodată despre ei. Ce ai alege?

Dacă ai alege sămânța nr. 10 în 2017, ai fi plecat cu Virginia Commonwealth University peste Saint Mary's of California - și ai fi greșit. Datorită unei erori de luare a deciziilor, numită părtinire de recență, oamenii pot fi înșelați să folosească observațiile lor cele mai recente pentru a lua o decizie.

Preocuparea de recenzie este doar un tip de prejudecată care se poate infiltra în procesul de alegere al cuiva, dar există multe altele. Poate că sunteți părtinitor față de echipa de acasă sau poate vă identificați cu un jucător și doriți cu disperare ca acesta sau ea să aibă succes. Toate acestea influențează paranteza dvs. într-un mod potențial negativ. Chiar și profesioniștii experimentați cad în aceste capcane.

Tulburări de modelare

Învățarea automată se poate apăra împotriva acestor capcane.

În învățarea mașinilor, statisticienii, matematicienii și informaticienii instruiesc o mașină pentru a face predicții lăsând-o să „învețe” din datele din trecut. Această abordare a fost utilizată în mai multe domenii diverse, inclusiv în marketing, medicamente și sport.

Tehnicile de învățare automată pot fi asemănate cu o cutie neagră. În primul rând, alimentați datele anterioare ale algoritmului, setând în mod esențial cadranele pe caseta neagră. După ce setările sunt calibrate, algoritmul poate citi în date noi, să le compare cu datele din trecut și apoi să-și scutească predicțiile.

O vizualizare în cutie neagră a algoritmilor de învățare automată. O vizualizare în cutie neagră a algoritmilor de învățare automată. (Matthew Osborne, CC BY-SA)

În învățarea mașinii, există o varietate de cutii negre. Pentru proiectul nostru March Madness, cei pe care i-am dorit sunt cunoscuți sub numele de algoritmi de clasificare. Acestea ne ajută să determinăm dacă un joc ar trebui să fie clasificat sau nu ca o supărare, fie prin oferirea probabilității unei supărări, fie prin clasificarea explicită a unui joc ca unul.

Programul nostru folosește o serie de algoritmi de clasificare populari, incluzând regresia logistică, modelele de pădure aleatorii și vecinii apropiați k. Fiecare metodă este ca o „marcă” diferită a aceleiași mașini; lucrează la fel de diferit sub capotă ca Fords și Toyotas, dar îndeplinesc aceeași muncă de clasificare. Fiecare algoritm sau casetă are propriile sale predicții cu privire la probabilitatea de a deranja.

Am folosit statisticile tuturor echipelor din prima etapă din 2001 până în 2017 pentru a seta cadranele pe căsuțele noastre negre. Când am testat unul dintre algoritmii noștri cu datele din prima etapă din 2017, acesta a avut o rată de succes de aproximativ 75%. Acest lucru ne oferă încredere că analizarea datelor din trecut, mai degrabă decât să avem încredere în intestinul nostru, poate duce la predicții mai exacte ale supărărilor și, prin urmare, mai bune paranteze generale.

Ce avantaje au aceste cutii față de intuiția umană? Pentru una, mașinile pot identifica tiparele din toate datele din 2001-2017 în câteva secunde. Ba mai mult, având în vedere că utilajele se bazează doar pe date, acestea pot fi mai puțin susceptibile să cadă pentru prejudecăți psihologice umane.

Asta nu înseamnă că învățarea mașină ne va oferi paranteze perfecte. Chiar dacă cutia ocolește prejudecățile umane, nu este imună la greșeli. Rezultatele depind de datele anterioare. De exemplu, dacă o serie de numărul 1 ar pierde în prima rundă, modelul nostru probabil nu o va prezice, deoarece asta nu s-a întâmplat niciodată.

În plus, algoritmii de învățare automată funcționează cel mai bine cu mii sau chiar milioane de exemple. Doar 544 de jocuri din prima etapă din martie nebunie s-au jucat din 2001, astfel încât algoritmii noștri nu vor apela în mod corect la fiecare supărare. Cu un expert în baschet Jalen Rose, producția noastră ar trebui să fie utilizată ca un instrument împreună cu cunoștințele dvs. de expert - și noroc! - pentru a alege jocurile corecte.

Mașină învățare nebunie?

Nu suntem primii oameni care aplică învățarea automată la Madness March și nu vom fi ultimii. De fapt, în curând, tehnicile de învățare a mașinilor pot fi necesare pentru a face concurența competitivă.

Nu aveți nevoie de o diplomă în matematică pentru a utiliza învățarea mașinii - deși ne ajută. În curând, învățarea mașinii poate fi mai accesibilă ca niciodată. Cei interesați pot arunca o privire la modelele noastre online. Simțiți-vă liber să explorați algoritmii noștri și chiar să veniți cu o abordare mai bună.


Acest articol a fost publicat inițial pe The Conversation. Conversatia

Matthew Osborne, candidat la doctorat în matematică, Universitatea de Stat din Ohio

Kevin Nowland, candidat la doctorat în matematică, Universitatea de Stat din Ohio

Poate un model de computer să prezică prima rundă a nebuniei din luna martie a acestui an?