https://frosthead.com

Cât Margaret Dayhoff a adus calculul modern la biologie

În 1984, Fundația Națională de Cercetare Biomedicală a lansat o bază de date online gratuită care conține peste 283.000 de secvențe de proteine. Astăzi, resursa informațională proteică permite oamenilor de știință din întreaga lume să ia o proteină necunoscută, să o compare cu mii de proteine ​​cunoscute din baza de date și să determine modalitățile în care este similară și diferită. Din aceste date pot deduce rapid și precis istoricul evolutiv al unei proteine ​​și relația acesteia cu diverse forme de viață.

Originile umile ale acestei baze de date online masive încep cu mult înainte de internet. Totul a început cu Atlas of Protein Sequence and Structure, o carte tipărită din 1965 care conținea cele 65 de secvențe de proteine ​​cunoscute atunci, compilate de o femeie numită Margaret Dayhoff. Pentru a-și crea Atlasul, Dayhoff a aplicat tehnologii informatice de ultimă oră pentru a găsi soluții la întrebările biologice, ajutându-ne la nașterea unui nou domeniu pe care acum îl numim bioinformatică. Inițial chimist, Dayhoff a valorificat tehnologiile noi și în curs de evoluție ale erei de calcul post-al doilea război mondial, la instrumente de pionierat pe care chimiștii, biologii și astronomii le-ar putea folosi în studiul trans-disciplinar al originilor vieții pe Pământ.

Dayhoff (pe atunci Margaret Oakley) s-a născut în Philadelphia la 11 martie 1925 la Ruth Clark, profesoară de matematică a liceului și Kenneth Oakley, proprietar de afaceri mici. La vârsta de zece ani, familia sa s-a mutat în New York. Acolo, a participat la școli publice, devenind în cele din urmă valedictorian al Bayside High în 1942. A urmat o facultate la Washington Square College din New York University, absolvind magna cum laude în matematică abia trei ani mai târziu în 1945.

În același an, Dayhoff a intrat în Universitatea Columbia pentru a-și face doctoratul în chimie cuantică sub mentoratul unui chimist proeminent și al cercetătorului de operațiuni din cel de-al doilea război mondial George Kimball. Acceptarea ei a fost o raritate pentru timp. După cel de-al doilea război mondial, mai mulți bărbați au intrat în științe, iar chimia a devenit și mai dominată de bărbați decât în ​​deceniul precedent, doar cinci procente din doctoratele în chimie mergeau la femei, în scădere de la opt la sută.

În timpul lui Dayhoff la universitate, Columbia a fost un pat fierbinte pentru tehnologia de calcul. S-a lăudat cu unele dintre primele laboratoare de calcul din SUA, iar în 1945 a devenit acasă la laboratorul științific IBM Watson condus de astronomul WJ Eckert. Laboratorul Watson a servit pentru prima dată ca centru de calcul pentru Aliați în ultimele luni ale celui de-al doilea război mondial. După război, a devenit un site pentru dezvoltarea unora dintre primele super-calculatoare, inclusiv Calculatorul electronic de selecție selectivă (SSEC), pe care Eckert l-a folosit ulterior pentru a calcula orbitele lunare pentru misiunile Apollo.

Cu această tehnologie la îndemână, Dayhoff și-a combinat interesul pentru chimie cu calculul prin intermediul unor mașini cu carduri perforate - în esență computere digitale timpurii. Mașinile permiteau lui Dayhoff să-și automatizeze calculele, stocând un algoritm pe un set de carduri și date pe altul. Folosind utilajul, a fost capabilă să proceseze calculele mult mai rapid și cu precizie decât cu mâna.

Subiectul de interes special al lui Dayhoff au fost compușii organici policiclici, care sunt molecule care constau din trei sau mai mulți atomi uniți într-un ciclu apropiat. A folosit mașinile cu carduri perforate pentru a efectua un număr mare de calcule pe energiile rezonante ale moleculelor (diferența dintre energia potențială a unei molecule a unei stări specifice și a stării medii) pentru a determina probabilitatea legăturii moleculare și a distanțelor de legătură.

Dayhoff a absolvit doctoratul în chimie cuantică în doar trei ani. Cercetarea pe care a întreprins-o ca studentă absolvită a fost publicată, cu Kimball în calitate de coautor, în 1949, în Journal of Chemical Physics, sub titlul simplu Punched Card Calculation of Resonance Energies.

Tot în 1948, Dayhoff s-a căsătorit cu Edward Dayhoff, un student în fizică experimentală pe care îl întâlnise la Columbia. În 1952, perechea s-a mutat la Washington, DC, unde Edward a preluat un post la Biroul Național de Standarde și Dayhoff a născut prima dintre cele două fiice ale sale, Ruth. Dayhoff a renunțat curând la cercetări pentru a deveni o mamă care rămâne acasă la Ruth și fiica ei mai mică Judith, cu excepția unei poziții postdoctorale de doi ani la Universitatea din Maryland.

Când a revenit la cercetare și a început să solicite subvenții pentru a-și finanța activitatea în 1962, a fost întâmpinată de un șoc. Institutele Naționale de Sănătate au respins o cerere de finanțare care a enumerat Dayhoff drept investigator principal, cu explicația că „[Dayhoff] a rămas fără atingere cu adevărat intimă de ceva vreme… cu această zonă complicată și care avansează rapid”, după cum scrie istoricul Bruno Strasser în cartea sa viitoare Collecting Experiments: Making Big Data Biology . Acest tip de urcare ascendentă pentru femeile care și-au luat timp pentru creșterea copiilor este doar unul dintre modurile în care instituțiile științifice au împiedicat și continuă să împiedice avansarea femeilor.

În ciuda lipsei de sprijin a NIH, Dayhoff urma să intre în deceniul cel mai consecvent din cariera ei. În 1960, a acceptat o invitație fatidică din partea lui Robert Ledley, un biofizicist de pionierat pe care a cunoscut-o prin soțul ei, să se alăture lui la Fundația Națională de Cercetare Biomedicală din Silver Spring, Maryland. Ledley știa că abilitățile computerizate ale lui Dayhoff vor fi cruciale pentru obiectivul fundației de a combina domeniile de calcul, biologie și medicină. Ea va ocupa funcția de director asociat timp de 21 de ani.

Odată ajuns în Maryland, Dayhoff a avut frâu liber să-l folosească pentru noul model mainframe IBM 7090 al Universității Georgetown. Sistemul IBM a fost proiectat pentru manipularea aplicațiilor complexe, cu viteze de calcul de șase ori mai rapide decât modelele anterioare. Această viteză a fost obținută prin înlocuirea tehnologiei cu tuburi de vid mai lente și mai voluminoase cu tranzistoare mai rapide și mai eficiente (componentele care produc calculatoarele 1 și 0 ale computerelor). Folosind mainframe-ul, Dayhoff și Ledley au început să caute și să compare secvențe peptidice cu programe FORTRAN pe care le-au scris singure în încercarea de a asambla secvențe parțiale într-o proteină completă.

IBM 7090 Consola operatorului IBM 7090 la Centrul de Cercetare Ames NASA în 1961, cu două bănci de unități magnetice IBM 729. (NASA)

Angajamentul lui Dayhoff și Ledley de a aplica analiza computerului la biologie și chimie a fost neobișnuit. „Cultura analizei statistice, cu atât mai puțin a calculului digital, a fost complet străină de majoritatea [biochimiștilor]”, explică Strasser într-un interviu pentru Smithsonian.com . „Unii chiar s-au mândrit să nu fie„ teoreticieni ”, care este modul în care au înțeles analiza datelor folosind modele matematice.”

O disciplină științifică în care experimentatorul computerizat de Dayhoff era mai apreciat, însă, era astronomia. Acest interes pentru calcul a fost mulțumit în parte WJ Eckhart, care în 1940 folosise mașini de perforare IBM pentru a prezice orbitele planetare. Iar în anii 1960, interesul american pentru explorarea spațială era în plină evoluție, ceea ce însemna finanțare pentru NASA. La Universitatea din Maryland, Dayhoff l-a cunoscut pe spectroscopistul Ellis Lippincott, care a adus-o într-o colaborare de șase ani cu Carl Sagan la Harvard în 1961. Cei trei au dezvoltat modele termodinamice ale machiajului chimic al materiei, iar Dayhoff a conceput un program de calculator care ar putea calcula concentrațiile de echilibru ale gazelor în atmosfere planetare.

Cu programul Dayhoff, ea, Lippincott și Sagan au putut alege un element de analizat, permițându-le să investigheze multe compoziții atmosferice diferite. În cele din urmă, au dezvoltat modele atmosferice pentru Venus, Jupiter, Marte și chiar o atmosferă primordială a Pământului.

În timp ce explora cerul, Dayhoff a pus și o întrebare pe care cercetătorii o explorau încă din anii 1950: care este funcția proteinelor? Secvențializarea proteinelor a fost un mijloc de obținere la răspuns, dar secvențierea proteinelor individuale a fost extrem de ineficientă. Dayhoff și Ledley au adoptat o abordare diferită. În loc să analizeze izolat proteinele, au comparat proteinele derivate din diferite specii vegetale și animale. „Comparând secvențele aceleiași proteine ​​la specii diferite, s-a putut observa ce părți ale secvenței au fost întotdeauna identice la toate speciile, un bun indiciu că această parte a secvenței a fost crucială pentru binele proteinei”, spune Strasser.

Dayhoff sondează mai profund, căutând istoricul comun al proteinelor. Ea a analizat nu numai părțile care erau aceleași între specii, dar și variațiile lor. „Au luat aceste diferențe ca o măsură a distanțelor evolutive între specii, ceea ce le-a permis reconstrucția copacilor filogenetici”, explică Strasser.

Dayhoff, întotdeauna gata să valorifice puterea noii tehnologii, a dezvoltat metode computerizate pentru a determina secvențele de proteine. Ea a efectuat o analiză computerizată a proteinelor dintr-o mare varietate de specii, de la ciuperca candida la balenă. Apoi a folosit diferențele lor pentru a determina relațiile lor ancestrale. În 1966, cu ajutorul lui Richard Eck, Dayhoff a creat prima reconstrucție a unui copac filogenetic.

Într-un articol științific american din 1969, „Computer Analysis of Protein Evolution”, Dayhoff a prezentat publicului unul dintre acești copaci împreună cu cercetarea ei folosind calculatoare pentru secvențierea proteinelor. „Fiecare secvență de proteine ​​care este stabilită, fiecare mecanism evolutiv care este iluminat, fiecare inovație majoră din istoria filogenetică care este dezvăluită ne va îmbunătăți înțelegerea istoriei vieții”, a scris ea. Încerca să arate comunității științelor vieții potențialul modelelor computerizate.

Următorul ei scop a fost să colecteze toate proteinele cunoscute într-un loc unde cercetătorii ar putea găsi secvențe și să le compare cu altele. Spre deosebire de ziua de azi, când este ușor să apelezi la surse dintr-o bază de date electronică doar cu un cuvânt cheie, Dayhoff a trebuit să cerceteze reviste fizice pentru a găsi proteinele pe care le căuta. În multe cazuri, asta a însemnat verificarea erorilor colegului de cercetător. Chiar și cu ajutorul unui computer, munca de culegere și catalogare a secvențelor a necesitat cantități abundente de timp și un ochi științific exigent.

Nu toată lumea a văzut valoare în ceea ce făcea. Pentru alți cercetători, opera lui Dayhoff seamănă mai mult cu colecția și catalogarea istoriei naturale a secolului al XIX-lea, mai degrabă decât cu cea experimentală a omului de știință din secolul XX. „Colectarea, compararea și clasificarea lucrurilor naturii păreau de modă veche pentru mulți biologi experimentali din a doua jumătate a secolului XX”, spune Stasser. El se referă la Dayhoff ca un „outsider”. „Ea a contribuit la un domeniu care nu exista și astfel nu avea recunoaștere profesională”, spune el.

În 1965, Dayhoff a publicat prima colecție a celor 65 de proteine ​​cunoscute din Atlas of Protein Sequence and Structure, o versiune tipărită a bazei sale de date. În cele din urmă, datele s-au mutat pe bandă magnetică, iar acum trăiește online, unde cercetătorii continuă să utilizeze datele ei pentru a găsi alte mii de proteine. Alte baze de date biomedicale s-au alăturat fracțiunii, inclusiv Banca de date proteice, o colecție colaborativă de proteine ​​și acizi nucleici lansată în 1971 și GenBank, baza de date cu secvențe genetice lansată în 1982. Dayhoff a început o revoluție științifică.

„Astăzi, fiecare publicație în biologie experimentală conține o combinație de date experimentale noi și inferențe extrase din comparații cu alte date puse la dispoziție într-o bază de date publică, o abordare pe care Dayhoff a început-o cu jumătate de secol în urmă”, spune Strasser.

Pe măsură ce bioinformatica a crescut, sarcinile de colectare și calcul au căzut în mare parte femeilor. Colaboratorii Dayhoff pe Atlas au fost toate femei, cu excepția lui Ledley. La fel ca femeile „calculatoare” ale NASA din anii ’60 și femeile de coduri ale celui de-al Doilea Război Mondial, aceste femei au fost curând împinse la marja practicii științifice. Referindu-se la „fetele ENIAC” care au programat primul computer digital, cu scop general, istoricul informaticii Jennifer Light scrie că „se află în limitele unor clasificări profesionale atât de scăzute, încât femeile erau angajate într-o muncă fără precedent.”

În schița biografică a lui Dayhoff, Lois T. Hunt, care a lucrat la Atlas cu ea, a scris că Dayhoff a crezut că investigația ei în atmosfera primordială a Pământului ar putea să-i ofere „compușii necesari pentru formarea vieții.” Acest lucru, poate chiar mai mult decât calculul este ceea ce leagă părțile disparate ale cercetării științifice a lui Dayhoff. De la proteina minusculă până la vasta atmosferă, Dayhoff căuta secretele apariției vieții pe această planetă. Deși nu le-a deblocat pe toate, a oferit științei moderne instrumentele și metodele de a continua căutarea.

Cât Margaret Dayhoff a adus calculul modern la biologie