Data Science, "najseksi zanimanje veka" — šta to znači u praksi?

Pre dve godine sam počeo da se predstavljam kao Data Scientist. Koliko god da je to olakšalo komunikaciju sa kolegama na konferencijama, toliko komplikuje situaciju kada vas pitaju za zanimanje. Obično kažem da sam programer. Statističar, ipak, nisam.

Marko Jevremović
08/03/2016

Poslednje četiri godine radim u Nordeusu na analizi igara i razvoju infrastrukture za analizu podataka. Pre dve godine mi se fokus rada pomerio sa razvoja infrastrukture na analizu i od tada se kolegama iz industrije predstavljam kao Data Scientist.

Koliko god da je to olakšalo komunikaciju sa kolegama na konferencijama, toliko komplikuje situaciju kada vas pitaju za zanimanje. Obično kažem da sam programer. Statističar, ipak, nisam, niti imam duboko obrazovanje iz te oblasti.

Data Scientist je, upravo zahvaljujući svojoj popularnosti, postao maglovito definisano zanimanje.

Mnogi kritičari smatraju da je Data Scientist samo glorifikovani statističar. Lično, ne slažem se sa tim.

WTF is data scientist?

Pored znanja statistike, koje nije presudno, i obrade podataka, programiranja i baza podataka, neophodne su i neke ne-tehničke veštine, kao što je domensko znanje iz oblasti kojom se bavite (u mom slučaju Game Design) i kvalitetna vizualizacija i komunikacija podataka i nalaza (što je često više umetnost nego nauka).

Karakteristika ovog posla je pre širina, nego specijalizacija u bilo kojoj od ovih oblasti.

Verovatno su upravo ovako široki zahtevi za veštinama jednog Data Scientista i doveli do pokretanja ogromne marketinške kampanje koja je, između ostalog, proglasila ovo zanimanje “najseksi poslom 21. veka”.

To je taj smisao za marketing američkih korporacija.

Kampanja je svakako uspela, čemu svedoči i eksplozija kurseva koji obećavaju stvaranje armije Data Scientist-a koji su potrebni novoj ekonomiji.

Imati ljude u kompaniji koji se bave ovim poslom je danas isto što i ulagati u marketing: nekada vam to donosi prednost u odnosu na konkurente, ali pre svega vam omogućava da ostanete na površini. S druge strane nagla popularnost tog posla je dovela i do toga da dosta ljudi sebe “rebrendira” u Data Scientista, što je dovelo do još veće konfuzije oko toga šta to tačno (sve) Data Scientist radi?

Generalno, Data Scientist koristi podatke da bi kroz eksplorativnu analizu došao do modela koji objašnjavaju neke fenomene. Modeli se dalje koriste ili za donošenje odluka ili za pravljenje proizvoda zasnovanih na podacima.

Kako to izgleda u praksi?

Top Eleven, glavni proizvod Nordeusa, ima milione igrača, dakle populaciju sličnu jednoj ne maloj državi. Mi skupljamo između pola milijarde i milijardu redova podataka dnevno koje igrači generišu svojim aktivnostima u igri.

Međutim, podaci nisu informacije, oni su sirovina iz kojih ćemo dobiti informacije.

Možete zamisliti sve te milione i milijarde podataka kao gomilu zemlje, blata i kamenja u kojima se krije grumen zlata, informacija koja će dovesti do toga da se nešto uradi bolje, da znamo gde smo i kuda se krećemo ili da napravimo novi proizvod koji će ljudi koristiti, jer i njima informacije koje pruža donose nekakvu vrednost.

Da bismo došli do tih informacija koristimo razne Data Mining tehnike, eksplorativnu analizu i vizualizaciju podataka. Ovo nipošto nije linearan proces, već istraživanje gde se kroz mnoštvo iteracija gradi sve jasnija mentalna slika.

Za razliku od naučnih radova u kojima je poželjno ulaziti u detalje statistike koja dokazuje ili opovrgava nekakvu hipotezu, u poslovnom okruženju je bitno što jednostavnije preneti drugim ljudima tu mentalnu sliku do koje ste došli. Rezultat istraživanja više liči na kvalitetan blog nego na naučni rad.

Mora postojati narativ koji objašnjava kako se nalaz uklapa u širu sliku koju imate o proizvodu, ili, pak, zašto moramo promeniti tu širu sliku zahvaljujući novim nalazima.

Dobra vizualizacija podataka postavljena na pravom mestu u tom narativu će pomoći da i drugi brzo dođu do istih zaključaka. Gomile dijagrama i raznih grafika, statističkih analiza, intervali sigurnosti – sve će to samo zatrpati još jednom suštinu priče.

Tu je velika razlika između Data Scientista i statističara, ali ovde leži i ključna razlika između Data Scientista i drugih, naizgled sličnih, analitičara.

Data Scientist ume da komunicira sa ljudima kao pripovedač i prenese im razumevanje nekakvih procesa oslikanih u svim tim podacima, iako oni sami nemaju veštinu i znanje da dođu do tih rezultata. S druge strane, Data Scientist mora da bude u stanju da svoje tvrdnje opravda prikazivanjem strogog metodološkog procesa.

Naučni metod u poslovanju

Ovo je, zapravo, zanimanje koje je prvi put zvanično uvelo naučni metod u biznis. Umesto slepog “kopanja” po podacima, sve kreće od brižljivo postavljenih hipoteza koje se mogu oboriti. Nadalje se razlikuje samo metodologija prikazivanja rezultata i konačni cilj je, budimo iskreni, uvek u službi biznisa, a ne pukog proširenja ljudskog znanja.

Rezultati uvek moraju imati upotrebnu vrednost, jer će biti odmah iskorišćeni ili za donošenje odluke čije se posledice mogu jasno izmeriti, ili za pravljenje nove aplikacije, čija se upotreba, a samim tim i vrednost, jako lako može izmeriti.

U praksi, ljudi se uglavnom specijalizuju za određene aspekte ovog posla, što zavisi od njihovih veština i sklonosti. Postoji grupa Data Scientista koji se pre svega bave razvojem proizvoda na osnovu podataka.

Iako prethodi bumu zanimanja za ovu oblast, jako dobar primer je nastanak i razvoj Gugla. I Guglov pretraživač i njihov biznis sa reklamama su proizvodi zasnovani na podacima. Takve proizvode razvijaju, pre svega, programeri koji su svoja interesovanja proširili u oblast obrade podataka i statistike.

S druge strane, velika većina Data Scientista se bavi analizom i njihovo obrazovanje je raznoliko – ili su u pitanju ljudi koji su završili tehničke fakultete, pa su se usmeravali ka biznisu, ili su u pitanju ljudi koji su završili ekonomski ili slične fakultete, a zatim unapredili svoja tehnička znanja, pre svega u oblasti programiranja.

Konkretno, od svih Data Scientista u Nordeusovom Analytics timu, ne postoje dva čoveka sa istim obrazovanjem i setom veština.

Pošto su zahtevi za “idealnog” Data Scientista blago nerealni – neko ko bi bio jako dobar u svemu što sam pomenuo, taj problem se rešava sklapanjem potpuno funkcionalnog tima u kome ljudi dopunjuju jedni druge svojim veštinama.

U tom smislu, Data Science je zanimljiv kao nova pojava koja menja moderni biznis i zato što su jedino kompanije koje su u stanju da stvore tu zdravu atmosferu saradnje u mogućnosti da potpuno razviju i iskoriste potencijale ove oblasti.

Marko Jevremović

Objavio/la članak.

utorak, 8. Mart, 2016.

IT Industrija

🔥 Najčitanije

Marko

ponedeljak, 25. Jul, 2016.

Alo Mare, sto da se igras buljenja u ekran, kad imas zivot ispred sebe da ga igras? Da menjam pixelizovani pint Jelen piva u Minecraft za pravi? Ne, hvala. "koji ce igrati milioni ljudi..."... pa covece, povremeno delujes veoma nezavisno, ali ne odolevas potrebi da se bavis marketingom u interesu firme za koju radis... nafituj gradient boosting machine i odmori... drz'se!

Milos

petak, 8. April, 2016.

Na Ekonomskom fakultetu postoji smer za statističare pa pretpostavljam da se takvi kadrovi bave data naukom.

Marko Jevremovic

nedelja, 13. Mart, 2016.

Stefane, razumem Vašu zabrinutost, međutim Nordeus jeste napravio dosta igara. Stvar je u tome što cilj kompanije nije da samo izbaci bilo kakvu novu igru, već igru koja kvalitetom i popularnošću može da se meri sa Top Elevenom, neku koju će igrati milioni ljudi. SIguran sam da će jedna od igara koje se trenutno razvijaju sigurno zadovoljiti i Vaš ukus.

Marko Jevremovic

nedelja, 13. Mart, 2016.

Srđane, zvanični programi posvećeni Data Science-u postoje na fakultetima tek nekoliko godina i nisu ni sada dovoljni da zadovolje potražnju za ovim zanimanjem. Trenuto se ovim poslom mahom bave ljudi koji imaju MSc ili PhD iz oblasti tehničnih nauka, ali takođe i ljudi sa ekonomije ili psihologije. Ima raznih zanimljivih ljudi na ovom svetu, pa čak i ekonomista i psihologa koji nauče R ili python, SQL i druge tehničke veštine koje im trebaju za ovaj posao, koliko god to, izgleda, bilo teško ljudima da poveruju. Meni zanimljivo, psiholozi koji su postali Data Scientist-i rade, recimo, Data Science in HR ili jednostavno rade u Facebook-u ili drugim društvenim mrežama gde je njihovo primarno obrazovanje često nezamenljivo.

Marko Jevremovic

nedelja, 13. Mart, 2016.

Poštovani Petre, kursevi koje si video su kreirani pre nego što je bilo koji fakultet organizovao specijalizaciju u oblasti Data Science-a i služe da ljude sa srodnim obrazovanjem uvedu dublje u ovu oblast. Ti kursevi nisu završene celine, već ih treba doživeti kao prvi korak u dobrom smeru i mora se uložiti jako puno rada van okvira bilo kakvih kurseva i/ili formalnih specijalizacija na fakultetu. Generalno, znanje je ono što se ceni i ako možeš da pokažeš da poseduješ znanje, formalno obrazovanje je manje bitno. Na stranu što je neke stvari mnogo teže naučiti sam (čak i uz pomoć kurseva), jako je teško dobiti šansu za intervju za Data Scientist-a bez ikakvog formalnog obrazovanja, tako da - ne, kursevi nisu dovoljni, ali mogu biti relevantna stavka u CV-u (jedna od).

Stefan

subota, 12. Mart, 2016.

Sve je to lepo ali ako nemate coveka koji ima mozak, mastu, logiku i iskustvo ni 100 data scientista vam nece poboljsati igru koja je dosadna. Takodje ne vidim da ste uradili i jednu novu igru a nazivate se Gaming ifmrom i postojite koliko ono bese?

srdjan

petak, 11. Mart, 2016.

U svakoj iole ozbiljnijoj kompaniji se za ovu ulogu zaposljavaju ljudi koji imaju doktorat iz te oblasti i umeju da se izrazavaju recito R-om, pythonom, matlabom.. bilo koja prica o prekvalifikaciji ekonomista u ovu rolu je neozbiljna i populisticka i u ravni je sa poredjenjem web dev-a koji pegla teme za sajtove i bekend deva ciji se programi spanuju na hiljade servera u klasteru. Ako je i ovo stav Nordeusa o data sciencu niposto nije generalan stav svetskih kompanija.

E1

četvrtak, 10. Mart, 2016.

Ovaj momak zvuci mnogo sesksi !

Petar Bogosavljević

sreda, 9. Mart, 2016.

Poštovanje! Da li je realno očekivati da neko dobije posao data scientist-a samo na osnovu online na temu big data i programiranja, a da nema visoko obrazovanje iz oblasti ekonomije ili programiranja/matematike, itd... ? Video sam d se na netu reklamiraju razni kurikulumi na temu data science, tipa data scientist nanodegree na platformi Udacity, zatim Coursera, ali ne znam da li je samo to dovoljno ili relevantno. Hvala unapred na odgovoru!!

Sasa

utorak, 8. Mart, 2016.

Pretty sexy.