https://frosthead.com

Modul în care Google îți păstrează spamul în afara intrării tale

În spatele tuturor informațiilor Google curgând - de la a afla care sunt rezultatele căutării cele mai importante, la citirea și păstrarea filelor pe e-mailul dvs. - există anumite aspecte interesante. Și recent, Javier Tordable, un inginer software, a făcut o prezentare pe aceasta, deschizând o fereastră în lumea geeky Google doar o fisură.

Să începem cu Gmail. Uneori primești e-mailuri de spam, dar Gmail este destul de bun să-ți dai seama că, atunci când un corespondent încearcă să te facă să investești într-un prinț nigerian, probabil că nu vrei ca acea poștă de e-mail să fie în căsuța de e-mail. De unde știe? Pasul întâi: instruiți mașina. Pasul doi: pune-l la treabă.

Se numește învățare automată și Google face o mulțime de lucruri. În primul pas, trebuie să faceți ceea ce informaticienii numesc „caracterizează o instanță”. În vorbire matematică, aceasta înseamnă:

În general, caracteristicile unei instanțe pot fi considerate ca elemente dintr-un vector al unui spațiu euclidian ndimensional pentru un n mare (100-1000 dimensiuni este normal, 1M-10M nu este neașteptat)

Dar iată cum să vă gândiți la asta dacă ați oprit matematica după Calc 1. Gmail poate extrage câteva informații cheie de pe orice e-mail. Cât timp este? Câte litere majuscule există? Este vorba de cineva care ați primit un e-mail înainte? Nu doriți ca informațiile necesare pentru a lua decizia să fie prea greu de obținut sau de tratat, deoarece aceasta va încetini și va reduce exactitatea mașinii. Deci, Google desenează o linie, bazată pe ceea ce știe despre spam. Mesajele de e-mail care intră intră pe o parte a liniei, iar pe cele spamm, pe cealaltă.

Mai multe vorbe de matematică:

Un model simplu de clasificare este un hiperplan în spațiul caracteristicilor. Instanțele de date dintr-o parte a hiperplanului sunt clasificate ca e-mailuri valide, iar instanțele din cealaltă parte sunt clasificate ca spam.

Ce zici de căutarea vocală - numită și recunoaștere automată a vorbirii sau ASR? La fel ca învățarea automată, ASR se întâmplă în două părți: procesarea sunetului care intră și identificarea a ceea ce spui. Prima parte implică transformări Fourier, care izolează biții importanți pe care computerul îi poate transpune. A doua parte este modelarea discursului folosind ceea ce se numește „model ascuns de Markov”. Tordable explică:

În acest model, stările sunt literele mesajului, iar succesiunea evenimentelor este semnalul sonor. Algoritmul Viterbi poate fi utilizat pentru a obține secvența de stări cu probabilitate maximă.

Google ar dori să facă recunoașterea vocală mai bună și mai ușoară. În acest studiu de caz, un grup de whizzes Google scrie:

Un obiectiv la Google este de a face accesul vorbitor disponibil la omniprezent. Am dori să lăsăm utilizatorul să aleagă - ei ar trebui să poată lua de la sine, că interacțiunea vorbită este întotdeauna o opțiune. Atingerea ubicuității necesită două lucruri: disponibilitatea (adică, încorporată în fiecare interacțiune posibilă în care intrarea sau ieșirea vorbirii poate avea sens) și performanța (adică funcționează atât de bine încât modalitatea nu adaugă nici o frecare interacțiunii).

Un alt domeniu în care Google folosește matematica este în hărțile lor - în centrul atenției recent după ce Apple și-a debutat sistemul de mapare la critici considerabile. În centrul Google Maps se află teoria grafică de bază - matematica de a ajunge dintr-un loc în altul în timp ce parcurgeți cea mai scurtă distanță. Dar, desigur, este mai complex de atât. Tordable scrie, „O problemă unică este că graficele utilizate în Google Maps conțin milioane de noduri, dar algoritmii trebuie să ruleze în milisecunde.”

Google nu ne va spune cum fac asta. În caz contrar, Apple nu s-ar fi confruntat cu problema sa, dar elementele de bază implică eliminarea algoritmului lui Dijsktra (probabil cel mai des utilizat algoritm de căutare grafică). Câțiva ani în urmă, oamenii de informatică de la Universitatea din Karlsruhe au descris o nouă modalitate de a clasifica interogările căilor pentru a obține rezultate mult mai rapide. Ei au scris:

Algoritmul nostru preprocesează numărul de opt cifre de noduri necesare pentru hărțile SUA sau Europa de Vest în câteva ore folosind spațiu liniar. Cele mai scurte (adică cele mai rapide) interogări de cale, apoi ia aproximativ opt milisecunde pentru a produce trasee cele mai scurte. Acest lucru este de aproximativ 2.000 de ori mai rapid decât utilizarea algoritmului lui Dijkstra.

Tordable parcurge o serie de alte instrumente matematice utilizate de Google, inclusiv cele implicate în Google Cărți, Căutări de imagini, Analytics, YouTube, Google Translate, Google Earth și Picasa. Puteți vedea întregul set de diapozitive aici.

Mai multe de la Smithsonian.com:

Smithsonian obține Google mapat
Urmăriți tendințele alimentare cu Google Cărți

Modul în care Google îți păstrează spamul în afara intrării tale