IT Industrija
🔥 Najčitanije
🔥 Najčitanije
Dori Zidon je izraelsko-australijski preduzetnik i inženjer koji živi i radi na putu između Beograda, Tel Aviva i San Franciska koji pravi ruter za LLM-ove.
Deluje kao da svakih par momenata biva lansiran nov LLM sa novim mogućnostima, novim modalitetima, novim primenama.
Brzina kojom se razvija veštačka inteligencija je bukvalno impozantna. Ne samo zato što je fascinatntna i predivna stvar koja menja tok razvoja čovečanstva, što svakako jeste. Više zato što, čini se, apsolutno moramo da se bavimo njome ako želimo da ostanemo relevantni na tržištu, bili preduzetnici ili pojedinci.
Ako pritom imamo na umu to da je jedna od najbistrijih definicija startapa to da je suštinski startap jednako brzina, pravljenje startapa u oblasti koja evoluira na dnevnom nivou deluje kao vrlo napeta stvar.
Srećom za Dorija Zidona napetost, ili bolje reći intenzitet, nije nešto što mu fali. Ovaj Beograđanin, rodom iz Tel Aviva, je na mnogo načina stereotipni Izraelac u IT industriji. Brzina i intenzitet sa kojom nastupa mogu biti strani i prejaki za slovensku narav na momente, ali ako se posmatra iz perspektive zadatka koji su njegov tim i on uzeli na sebe, onda su adekvatni i svakako neophodan preduslov za uspeh.
Martian je startap koji na sebe uzima zadatak da mi ne moramo da budemo lik iz ovog vica. Tim ovog startapa je razvio prvi LLM ruter, proizvod čija svrha je optimizovani odabir odgovarajućeg LL modela koji najviše odgovara svrsi zadatoj korisnikovim upitom, čime se štede resursi a dobija kvalitetniji rezultat.
Ako u garaži imate Poršea i Škodu, verovatno nećete nasumično izabrati kojim automobilom ćete otići do supermarketa a kojim na trku. Različita vozila imaju različite namene, različite brzine i različite profile potrošnje.
Isto tako je i sa generativnim modelima. Različito su pametni, brzi i skupi. Martianov proizvod umesto vas bira koji model će dobiti vaš zadatak da biste za najmanju cenu dobili najbolji odgovor.
U nastavku prenosimo razgovor sa Dorijem Zidonom o tome kako su njegov tim i on pristupili razvoju ovog proizvoda, i tome šta ga je dovelo do toga da ovde dalje širi tim za razvoj Martiana ovde.
Ovaj članak je deo poslovnog aranžmana između SEE ICT-a i Dorija Zidona.
—————
Iskreno, Beograd mi ni u jednom trenutku nije bio nešto što sam planirao. Završio sam ovde zbog spleta okolnosti.
Promašio sam let na putu do Stokholma gde sam imao jedan product design posao i jedina opcija mi je bio let sa presedanjem u Beogradu. A pošto je čekanje na drugi let trajalo 9 sati, prijatelj mi je to veče pokazao grad i prosto sam se zaljubio.
U povratku iz Stokholma sam ovde proveo dve nedelje i shvatio sam da obožavam i grad i ljude. Iako tehnološki ekosistem još uvek nije na nivou Tel Aviva recimo, dobio sam inspiraciju i želju da postanem njegov deo i doprinesem ako mogu.
Mislim da mi je iskustvo u IT-u veoma duboko. Oduvek sam voleo da rastavljam stvari kako bih shvatio kako rade, sa programiranjem sam počeo sa 6 ili 7 godina, a nadam se da ću praviti zanimljive stvari i u osamdesetim.
Imao sam sreće da mi prvi posao bude u Microsoftovoj R&D laboratoriji u Izraelu, gde sam bio najmlađi u kancelariji. Radio sam na firewall proizvodu, pravio sve interne alate i vremenom tamo postao intranet i JavaScript ekspert. Radio sam na ranim verzijama JavaScript-a, 1.0 i1.1, i razvio IDC konektor, preteču ASP-a.
Tokom karijere sam imao i sreću da radim sa sjajnim ljudima na četiri kontinenta, i vodim multimilionske projekte za Sabre i Travelocity, na mestima poput Sidneja i Teksasa. Uveo sam jednu inovativnu izraelsku kompaniju na tržište Australije i Novog Zelanda gde smo rasli po 200% godišnje, gde su nam klijenti bili banke, državne službe i preduzeća svih veličina. Nakon povratka u Izrael sam pokrenuo nekoliko startapa u domenu sajber bezbednosti, internet tehnologija i mašinskog viđenja.
Za mene je preseljenje u Beograd uključivalo svrhu. Želim ovde da dovedem projekte kakvi se prave u ekosistemima kao što su oni u San Francisku i Tel Avivu, gde sam i dalje redovno prisutan. Interesantno je da sam u međuvremenu otkrio da mi je prababa rođena u Nišu, tako da imam i srpske krvi.
A veštačka inteligencija me fascinira već godinama, dosta rano sam ušao u tu sferu jer verujem da se radi o narednom stadijumu evolucije čovečanstva.
Recimo, proveo sam godinu i po dana radeći za BCG u Parizu na projektu CO2AI koji je imao za cilj da pomogne organizacijama da smanje ugljenični otisak. AI je jako uzbudljiv, a generativna veštačka inteligencija utiče na nas na mnoštvo načina. Lično smatram da svi softverski inženjeri koji se na neki način ne bave AI tehnologijama mnogo propuštaju, zapravo čak nazaduju, a za sebe mogu da kažem da sam počastvovan i uzbuđen što imam mogućnost da učestvujem u izgradnji budućnosti.
Uopšteno gledano, postoje dva tehnička aspekta Martian-a. Prvi su modeli mašinskog učenja koje koristimo za rutiranje, a drugi deo je infrastruktura koja je potrebna da bi se ti modeli isporučili kao proizvod.
Dobro rutiranje podrazumeva predviđanje ponašanja velikih jezičkih modela. Ako uzmemo za primer neku aplikaciju za korisničku podršku ili slične usluge, u toj situaciji želimo da uspostavimo odabir između LLM-ova koji maksimizuje zadovoljstvo krajnjeg korisnika (tzv. customer satisfaction tj. CSAT ocenu). Mogli bi recimo da se pokrenu svi modeli i odabere izlaz za koji se smatra da će rezultovati najboljim ishodom. Time bi se dobio sjajan odgovor, ali bi to bilo preskupo i neisplativo. Nasuprot tome, mi želimo da stvorimo ML model koji može da predvidi koliki bi bio CSAT za neki konkretni upit bez pokretanja samog LLM-a.
Ako to uradimo, možemo da dobijemo kvalitetniji rezultat sa pokretanjem samo jednog modela. Plastično rečeno, takav prediktor može da kaže nešto ovako: uzevši u obzir ulaz u vidu distribucije promptova, set dostupnih modela, i evaluacije, evo kako će svaki od modela performirati za buduće promptove iz te distribucije na osnovu njihove evaluacije.
Ovo zahteva jako visoku sposobnost generisanja sintetičkih podataka, kako bi se dobro razumela distribucija promptova, potom evaluciju LLM modela, kako bismo bili sigurni da merimo one stvari za koje optimizujemo proces, kao i pravljenje samih prediktora.
To je rad na najinteresantnijim tehnologijama u samom vrhu razvoja veštačke inteligencije: treniranje modela, interpretabilnost modela (mechanistic interpretability), Monte Karlo metode, kao i efikasno uzorkovanje koje unapređuje kapacitete modela da uz ograničen broj primera pravi efektivne predikcije.
To ujedno podrazumeva i neverovatnu infrastrukturu koju niko do sada nije izgradio.
Potrebno je da možemo da pristupimo svakom LLM-u koji postoji, da pretražujemo internet i da ih sve nađemo i prilagodimo u jedan konzistentan format pomoću naših adaptera i da im damo najrazličitije metapodatke koji mogu da im budu korisni. Potom, veliki jezički modeli su poznati po tome što su jako nekonzistentni i obično ne dolaze sa SLA ugovorima koji definišu norme za pružanje usluga. Moramo da implementiramo i balansiranje opterećenja, backoff i smart retry algoritme, nove bezbednosne mere.
Napraviti sve to tako da bude skalabilno, održivo i pouzdano je pravi izazov.
Što je veći obim poziva ka LLM-u, više koristi imaš od proizvoda poput Martian-a. Naše rutiranje smanjuje troškove, povećava performanse i smanjuje ukupan trošak korišćenja sistema veštačke inteligencije.
Što ti je veća skala, veći su ti i troškovi za korišćenje jezičkih modela, veći je i broj korisnika kojima je stalo do kvaliteta, i veći su troškovi inženjerskih timova, operacija i infrastrukture.
Zato su naši klijenti uglavnom korporacije i velika preduzeća. Do sada smo radili sa ogromnim finansijskim kompanijama, telekomunikacionim pružaocima usluga, IT kompanijama i čak i sa 2 od 5 najvećih AI čet kompanija.
Često se dešava da timovi po takvim firmama koriste samo jedan model jer smatraju da je on „pravi” za njih, što nikad nije slučaj.
Neki od naših klijenata su trošili milione dolara i godine inženjerskog rada radeći fine-tuning modela, a naš proizvod im smanjuje troškove za 97% uz porast kvaliteta od 50 i više odsto prema njihovim metrikama.
Realnost je da trenutno postoji preko stotinu modela, i nemoguće je da jedan inženjer ili čak ceo tim za mašinsko učenje isprate sve i razumeju kako iz svakog modela mogu da izvuku maksimum. Mi smo eksperti za sve te modele i načine na koji mogu da se koriste u produkciji, što nam omogućuje da dramatično poboljšamo način korišćenja LLM-ova u kompanijama.
Recimo, nedavno smo lansirali Airlock koji olakšava proces usaglašavanja internih kompanijskih i zakonskih propisa sa korišćenjem veštačke inteligencije, poboljšavamo evaluaciju sa ekspertizom iz domena merenja ponašanja modela, i naravno, smanjujemo troškove i povećavamo kvalitet našim rutiranjem.
Mixture-of-Experts i rutiranje modela su zapravo komplementarni.
Modeli kakav je Mistralov zovu se Mixture of Experts (ili MoE) modeli zato što sadrže više „eksperata” ili manjih neuralnih mreža u okviru modela, od kojih su samo neki od njih aktivni u datom trenutku. Oni na neki način rade rutiranje tako što na osnovu prethodnih tokena odlučuju koje eksperte će koristiti za naredne. To im dozvoljava da budu efikasniji tokom inferencije jer nije potrebno pokretati ceo model, što smanjuje troškove.
Rutiranje je proces odabira između modela za neki upit, što je na više načina bolje od MoE modela. Za početak, možemo da biramo između modela sa različitom arhitekturom. Na primer, pored transformatorske, u poslednje vreme se javljaju i State Space modeli ili SSM-ovi, a u budućnosti možemo imati i velike difuzione modele za tekst. Pored toga, postoje i različite transformatorske arhitekture i svaka ima svoje prednosti i mane. Napraviti MoE za sve te varijante je jako teško.
Druga stvar, kompanije treniraju modele na različitim podacima. Kompanije poput magic.dev i Poolside su se fokusirali na podatke vezane za programiranje, OpenAI se fokusira na opšte rezonovanje, Cohere na različite poslovne zadatke, Anthropic na bezbednost, a postoje i specijalizovane firme za ćaskanje sa krajnjim korisnicima, za korisničku podršku, za biologiju, za proveru tačnosti informacija, itd.
MoE pristup strukturiranju modela ne dozvoljava da se iskoriste prednosti onih modela koji su trenirani na različitim izolovanim setovima podataka. Rutiranje upravo to otključava.
Istražujemo i mogućnosti rutiranja na nivou tokena ili potpitanja, ali na kraju krajeva svaki put kada neki napredak u MoE tehnologiji poboljša takve modele, mi ih koristimo kao i svaki drugi model u okviru rutiranja, što poboljšava i sam ruter.
Dosta toga smo postigli pa je teško izdvojiti samo jednu stvar. Spomenuo sam da smo nedavno lansirali AirLock, alat za automatizaciju compliance procesa za korišćenje LLM tehnologija u kompanijama.
Ostvarili smo partnerstvo sa Accentureom, najvećom tehnološkom konsultantskom firmom na svetu, i stojimo iza njihovog LLM Switchboard proizvoda. Ogromna je čast raditi sa tim neverovatno talentovanim ljudima, a činjenica da mi pokrećemo ključni deo njihove infrastrukture znači da nam je ukazano veliko poverenje.
Ponosan sam i na to koliko klijenata je zainteresovano da postanu investitori, što takođe govori o poverenju koje imaju u nas.
Ali sam najponosniji na način na koji radimo kao tim. Zvučaću neskromno možda za srpsku kulturu, ali zaista verujem da je naša sprega pameti, upornosti i promišljenosti izuzetna. Ponosan sam i na našu kulturu, koja je obzirna, prijateljska i iskrena. To nam je bilo ključ uspeha.
Jedan od najvećih izazova je izgradnja boljih AI alata. Trenutno stanje na tom polju nije najbolje ali to će se promeniti i mislim da smo tu među prvima.
Ovi alati su neophodni na svim nivoima – od ubacivanja i validacije podataka preko pravljenja i konfiguracije modela, sve do rutiranja ili sistema obezbeđivanja. Moramo da osiguramo da sistemi veštačke inteligencije budu interpretabilni, skalabilni i sigurni.
Nažalost, trenutni alati modele uglavnom tretiraju kao crne kutije — obrađuju neke podatke bez razumevanja toga šta se dešava unutar samih modela.
Tako se ne prave dobri alati.
U programiranju, na primer, svi najbolji alati podrazumevaju i neku vrstu introspekcije nad programima: debagere, unit testove, Kubernetes, integrisana razvojna okruženja i slično. Uraditi isto za modele zahteva obimno istraživanje kako bi se shvatilo kako se oni ponašaju, zašto se tako ponašaju i kako možemo da smanjimo rizike, osiguramo bezbednost i budemo u skladu sa zakonima i propisima.
Možemo dosta da doprinesemo u ovom domenu jer smo suštinski agnostični po pitanju konkretnih modela. Kroz naš ruter prolazi velika količina podataka o korišćenju velikih jezičkih modela, što nam pruža vredne uvide i načine na koje možemo da nagledamo modele i bolje ih razumemo.
Što više istraživanja o mehanističkoj interpretabilnosti obavljamo utoliko više možemo da učinimo da se modeli ponašaju predvidljivo i očekivano, a da bismo to postigli zaposlili smo i neke od najpametnijih ljudi iz Silicijumske doline, i sada to radimo i u Beogradu.
Tim u Beogradu nastao je prirodno, iz moje strasti prema tehnologiji i ljubavi za ovim mestom.
Spoj ta dva mi daje inspiraciju i svrhu, pomaže mi da doprinesem vidljivost lokalnog ekosistema i da u isto vreme pružim još jednu priliku lokalnim inženjerima da rade na ključnim AI tehnologijama koje će oblikovati budućnost.
Jako poštujem Srbiju i uživam u radu sa domaćim programerima. Ljudi ovde imaju izraženo zajedništvo i iz petnih žila će se potruditi da održe datu reč, da ne govorim o znanju i pameti koja je na visokom nivou.
Ovde ćemo razvijati ključne Martian tehnologije, rešavaćemo do sada neviđene probleme, jer je ovo stvarno jedna potpuno nova oblast računarstva, i imaćemo priliku da se borimo sa izazovima s kojima retko ko ima priliku da se susretne u ovom trenutku.
Osnivači stoje iza mene i tima koji smo okupili i veoma su zadovoljni našim dosadašnjim radom, tako da sam veoma optimističan po pitanju budućnosti.
Objavio/la članak.
četvrtak, 31. Oktobar, 2024.