Utisci sa Data Science konferencije u Beogradu — Domaći eksperti govore o svetskim trendovima

Prošle nedelje u hotelu Holiday Inn održana je treća Data Science koferencija na temu Machine Learninga i Big Data, dve aktuelne tehnološke teme.

Aleksa Vidović - 17. Oktobar, 2016.

Domaća zajednica okupljena oko ove oblasti raste, i odaje utisak da se kod nas prate globalni trendovi i da po kvalitetu stručnjaka ne zaostajemo za ostatkom sveta.

Najvažnija poruka konferencije jeste da nauka o podacima nije nešto što nas tek čeka u budućnosti — ona je deo naše svakodnevice, bili mi toga svesni ili ne. Upravo zbog toga je bitna njena popularizacija kod nas, jer je korišćenje podataka na pravi način jedna od ključnih stvari za uspeh u modernom biznisu.

Raznovrsni predavači

Konferencija je okupila uglavnom domaće eksperte koji su govorili o temama iz svojih domena, kao i veliki broj posetilaca koji su bili tu da se upoznaju sa trendovima u nauci o podacima.

Predavači su dolazili iz različitih delova industrije, što je doprinelo raznovrsnosti tema, i pružilo uvid u materiju iz različitih uglova posmatranja. Pored onih koji svakodnevno rade na komercijalnom softveru bilo je i predstavnika naučne zajednice, fakultetskih profesora i istraživača.

U praksi, nauka o podacima je koncept koji obuhvata raznovrsne metode, alate i procese rada sa podacima, kao što su statistika, vizualizacija podataka, rudarenje podataka (data mining), mašinsko učenje, i veštačka inteligencija. Konferencija je pokrila većinu ovih oblasti, na zanimljiv i edukativan način.

20 predavača održalo je 23 predavanja za dva dana, i za sva se može reći da su bila visokog kvaliteta. Neophodno predznanje za razumevanje onoga o čemu se govorilo variralo je od predavanja do predavanja.

Lično, najviše mi se dopalo predavanje Jelene Milovanović koja je govorila o primeni mašinskog učenja u razumevanju pisanog teksta od strane računara, pa ću pokušati da vam prenesem neke od utisaka.

Word2vec i ekstraktovanje informacija iz semantičkog vektorskog prostora

Jelena je istraživač iz Niša, i ona se u svojoj kompaniji bavi razvijanjem vektorskih modela reči. Word2vec model je nastao 2013. godine, i jedan je od ključnih modela u oblasti Natural Language Processinga.

Iako se iza njega krije kompleksna matematika, sama ideja i osnovni princip rada jednostavni su i zanimljivi.

Na ulazu imamo velike količine teksta koji se koristi kao osnova za građenje modela. Kvalitetan tekst za ovu namenu trebalo bi da je napisan na jednom (bilo kojem) jeziku i da se tiče samo jedne oblasti, tj. da ima samo jedan kontekst.

Jelena kaže da u svom radu uglavnom koristi engleske i holandske tekstove zbog potreba klijenata, ali bi model trebalo da funkcioniše i za druge jezike.

Na osnovu unetog teksta stvara se vektorski prostor koji predstavlja jezik, a vektori unutar prostora predstavljaju reči. Reči su grupisane u prostoru tako da se reči sličnog značenja nalaze blizu jedna drugoj. Na primer, vektori reči kao što su “Java”, “Ruby” i “Python” nalazili bi se blizu jedan drugom u prostoru, jer svi predstavljaju programske jezike.

Odnosi između vektora su ono što čini ovaj model toliko korisnim. Kada poredimo vektore reči “man” i “king” između njih je ista razlika kao i između reči “woman” i “queen”. Takođe, odnos između reči “man” i “men”, isti je kao i odnos između reči “shoe” i “shoes”, što pokazuje da model opisuje kako semantičke, tako i gramatičke odnose između reči.

Pored ovoga, računar na osnovu semantičkih odnosa i frekventnosti pojavljivanja prepoznaje jezičke fraze. U Jeleninom primeru, računar je iz njihovog teksta prepoznao fraze kao što su “central information agency” i “working middle class”.

Ovaj model ima veliku primenu u računarskom prepoznavanju ljudskog pisanog jezika, ali i pored toga ima nekoliko glavnih nedostataka. Pre svega, potrebna mu je kvalitetna baza za “učenje”. Tekst mora biti bez grešaka, i iz jednog domena. Isto tako veliki problemi nastaju sa homonimima, rečima koje se isto pišu ali imaju različito značenje (npr. kosa).

Problemi sa popularizacijom

Najveća vrednost ovog događaja leži u njegovoj savremenosti. Važno je da na domaćoj sceni pratimo svetske trendove, a talenata za to nam ne manjka. Konferencija je ostavila upravo takav utisak, i pokazala koliko potencijala postoji kod nas za ovu oblast.

Velika barijera za ulazak u ovu branšu, doduše ne samo kod nas već uopšte, jeste neophodno poznavanje matematike na kojoj se cela oblast bazira. Činjenica je da se u programiranje i ceo IT svet može danas ući prilično lako — donja granica nikada nije bila niža, pre svega zbog ogromne potražnje za kadrovima. To, ipak, ne važi i za data science.

Primena nauke o podacima u praksi zahteva mnogo veće početno znanje određenih oblasti matematike i, iako se većina stvari može postići samostalnim naporima i vrednim radom, sistemski pristup bio bi u konkretnom slučaju efektivniji. To pre svega uključuje modernizaciju programa obrazovnih institucija, pogotovo u vezi sa savremenim oblastima tehnologije, što data science definitivno jeste.