Erin Ledel o mašinskom učenju, stacking-u i muzici koju sluša

I da li sebe vidi kao inženjera za mašinsko učenje ili Data Scientist-a?

Marko Marković - 25. Novembar, 2019.

U Data Science svetu ime Erin Ledel je prilično poznato. Ipak, ona nije vezana isključivo za Data Science. Ona je koautor nekoliko R paketa, a trenutno se bavi ansamblerskim mašinskim učenjem kroz rad na H2O.ai open source projektu.

Pre ovoga Erin je stekla doktorat iz biostatistike koji se tiče različitih načina skaliranja statističkih algoritama, ali i nezanemarljivo iskustvo u organizacijama koje se bave mašinskim učenjem poput Wise.io, Marvin Mobile Security i DataScientific, Inc (čija je osnivačica). Uz bavljenje naukom, aktivno promoviše ulogu žena u računarskim naukama — osnovala je organizaciju Women in Machine Learning & Data Science, a takođe je i suosnivačica R-Ladies Global.

U Beograd je stigla prošle nedelje kao gost Data Science konferencije. Nakon čitavog dana aktivnosti, pomalo umornoj Erin uspeli smo da ukrademo nešto vremena i stigli da je pitamo kako ona vidi jedno od pitanja oko koga se čini da ne postoji usaglašeno mišljenje — šta je stacking? Ipak, kako u Data Science ulaze ljudi i sa statističkom pozadinom i sa iskustvom iz računarskih nauka, razgovor smo počeli time kako Erin sebe vidi u tom svetu.

Da li sebe više vidiš kao inženjera za mašinsko učenje ili Data Scientist-a? Kako su ta dva polja spojena u tvom radu?

Moj posao je zvanično Machine Learning Scientist (naučnik za mašinsko učenje, prim.aut.). Ja u suštini spajam delove obe oblasti, ali se više fokusiram na deo vezan za mašinsko učenje, kao što je razvijanje algoritama. Takođe, više se bavim istraživanjem kako razviti algoritam nego što sama radim inženjering. Za to imam tim koji većinu tih stvari radi umesto mene. U suštini, ja sam probirljiva i radim po malo od svega. Kada ljudi kažu Data Scientist, ja tu osobu doživljavam kao nekoga ko koristi već postojeći softver i primenjuje ga na setove podataka. Ono što ja radim drugačije je to što sama stvaram taj softver.

Ko ti je bio inspiracija da započneš ovu karijeru?

Pretpostavljam da sam bila inspirisana ljudima koji su i sami imali karijere kao statističari koji razvijaju softver. Jedno očigledno ime koje mi pada na pamet je Hedli Vikam. On je jedan od najpoznatijih ljudi koji se bave stvaranjem softvera za statistiku. Iskreno, nisam znala za baš mnogo ljudi koji se time bave, ali sam znala da želim da pravim softver sa statističke tačke gledišta.

Koji je poslednji projekat na kome si radila koji ti je bio uzbudljiv? Neki novi algoritam koji si isprobala ili implementirala?

Postoji novi algoritam na kome trenutno radim oko koga sam uzbuđena. Pretpostavimo da želite da predvidite cenu nekretnine ili nečega sličnog. Umesto da dobijete jednu vrednost, dobijate čitavu sliku onoga što algoritam predviđa. Na taj način možete da shvatite mnogo više o kvalitetu predviđanja ili o tome da li predviđanje ima neki problem. To je nešto na čemu radim sa profesorom sa Stenforda i trenutno pokušavamo da ga primenimo u H2O-u. 

Deo ste R-Ladies organizacije. Šta mislite, koliko je važna rodna raznovrsnost (gender diversity) u Data Science zajednici?

Mislim da je rodna raznovrsnost veoma važna sve dok se stvari ne izjednače, bar meni. Nakon toga više neće biti važna, pa ćemo moći da prestanemo da raspravljamo o našim odnosima. Sada još uvek imamo prilično neravnopravan odnos broja žena i broja muškaraca u našem polju. 

Važno je postići ravnopravnost kako bi žene dobile jednake prilike, ali smatram da ima mnogo više razloga zašto je to važno. Softver koji se proizvodi, modeli koji se prave, sav učinak nastaje pod uticajem ljudi koji ga stvaraju. Ukoliko imamo veoma neraznovrsnu grupu ljudi koji prave softver, moguće je da će postojati neki problemi koje oni neće videti. Kada počnete da dodajete druge ljude u tu grupu, ljudi koji su je inicijalno činili će početi da gledaju stvari na drugi, manje ukalupljen način, pa ćete imati sve bolje i bolje modele i stvari koje neće oštećivati određene grupe na određeni način. Tako da mislim da postoje dva benefita: jedan je učinak koji se postiže, a drugi je sama zajednica, pošto su ljudi srećniji kada nisu jedini u prostoriji koji izgledaju na određeni način. Mislim da su obe stvari podjednako važne.

Da li si imala priliku da stekneš sliku o Data Science zajednici u Srbiji?

Upoznala sam mnogo ljudi iz zajednice na Data Science konferenciji, a sigurna sam i da je bilo dosta ljudi koji nisu mogli da dođu. Mislim da sam upoznala dovoljno ljudi i tamo i na R-Ladies okupljanju, da steknem neku sliku.

Veliki broj razgovora koje sam vodila su bili vrlo interesantni. Ljudi imaju iste probleme sa podacima gde god da odete i ti problemi su podjednako teški. Iz razgovora sam shvatila i da je mnogo rešenja i softvera koji se koristi veoma slično onome što sam videla gde god da sam odlazila. Mislim da svi koristimo Google za iste stvari i dolazimo do istih rešenja zajedno na internetu. 

Dok sam spremao pitanja za intervju stekao sam utisak da među stručnjacima postoji nedoumica oko toga šta je tačno stacking (jedan od tipova ansamblerskog mašinskog učenja, prim. aut.). Da li bi mogla da opišeš šta ti podrazumevaš pod stacking-om ?

To je moj omiljeni algoritam. Mislim da je to dobar način da se uzme raznoliki set modela i da se od njega napravi nešto bolje. Generalno, ne postoji samo jedan algoritam koji je najbolji da se primeni na sve setove podataka. Uvek će postojati neke razlike i teško je unapred predvideti koji će algoritam biti najbolji za vaš set podataka. Najbolja stvar koju možete da uradite je da istrenirate modele na mnogo drugih različitih modela koristeći mnogo različitih algoritama i onda ih kombinujući na neki način.

Meni je stacking omiljeni način da to uradim zato što koristim mašinsko učenje da istreniram mašinsko učenje, tako da postoje ta neka dva nivoa. To je u suštini kao Inception — mašinsko učenje u mašinskom učenju. Moje mišljenje je da je najbolji način da shvatite kako da napravite ansambl (ensemble, prim. aut.) da koristite mašinsko učenje i naučite iz samih podataka kako da to shvatite.

Za kraj nam reci koju muziku slušaš dok radiš?

Uglavnom elektronsku, haus muziku. Bilo šta što me neće uspavati. Ne bih sada mogla da imenujem sve muzičare koje slušam, ali su to uglavnom neki razni podkasti ili ljudi koji puštaju mnogo različite muzike. Dakle, mnogo deep house podkasta.