Kako je ovaj 20-godišnjak iz Beograda napravio bolji rezultat od OpenAI sa svojim AI agentom?

Prošle srede smo zajednici otvorili vrata našeg Hot AI Summer programa – osmonedeljnog eksperimenta kojim želimo da pojačamo svest svih nas o važnosti primene AI u poslovanju i podelimo što više korisnog znanja.

Naš prvi gost nedelje, u sredu 16. jula, bio je Jovan Kiš, 20-godišnjak iz Beograda koji vodi Ukis AI, konsultantsku agenciju za AI softver. Tokom sat i kusur prezentacije i panel diskusije, disecirali smo pravljenje agenata koji koriste računar kao ljudi i jedna tvrdnja se istakla, a to je da su sa svojim agentom uspeli da nadmaše rezultate velikih organizacija kao što je OpenAI, makar i na vrlo uskom polju.

Computer use agenti su AI sistemi koji mogu da koriste računar kao što to radi čovek – klikću po ekranu, otvaraju aplikacije, unose podatke. Zvuči jednostavno, ali je sve sem toga, barem u ovom trenutku — i sami predstavnici velikih radionica kao što su Anthropic i OpenAI kažu otvoreno da je u pitanju kontraintuitivno težak problem za rešiti.

OSWorld je vodeći benchmark za AI agente, koji proverava da li agent ume da otvori aplikacije, barata fajlovima i prolazi kroz radne tokove od više koraka unutar celog operativnog sistema. (Benchmarks su skupovi kontrolnih zadataka za razne oblasti gde se može primeniti AI, kreativno pisanje, programiranje, pravo, medicina...)

Rezultat koji su Jovan i ekipa postigli je indikativan, rađen u junu na nasumično uzetom delu zadataka, i ma koliko je objektivno teško bilo kom startapu da se takmiči sa gigantom poput OpenAI-ja, zabavno je videti da se i odavde mogu postići lepi rezultati. U ovo doba praska AI inovacije vredi istaći svaki, pa i skromni uspeh domaćih timova u ovom polju.

Naravno, OpenAI radi 5000 stvari i možda u nekom trenutku pregazi sve startape, ali do tada uživajmo i inovirajmo — upravo se na ovim finesama prave razni "wrapper" startapi, poput Cursora ili Perplexityja.

Problem: Zapravo je složeno

A razlog zašto je agentsko korišćenje računara još uvek nerešeno, čak i od strane giganata, je to što je stvar naprosto teška iako to nama ne izgleda tako, plus sve ovo je jako jako novo, a ova computer-use podrazumeva da agent treba da:

Razume zadatak
Analizira screenshot
Planira korake
Izvršava akcije
Pamti kontekst

Zvuči jednostavno, zar ne? Kako kaže Jovan, u stvarnosti

Screenshoti brzo popune memoriju modela.

A kada pokušaš da daš modelu kontekst prethodnih koraka, performanse se drastično pogoršavaju. Mi smo testirali i reasoning modele kao što su Gemini 2.5 Pro i Claude 4 Opus. Nije bilo razlike.

Screenshoti su jednostavno previše kompleksan input čak i za reasoning model.

Njihov tim je testirao i accessibility tree – strukturirane podatke koje Windows generiše za osobe sa oštećenim vidom. Logično rešenje, zar ne? Umesto screenshota, daj AIju čist tekst sa imenima dugmića i koordinatama.

Implodiralo je sve.

Model se gubi u ogromnom accessibility treeu, ne vidi vizuelnu reprezentaciju onoga što pokušavaš da radiš.

Accessibility tree je dugačak ovako, a pravi accessibility tree je dugačak kao ova sala.

LLM jednostavno ne može da se snađe.

Rešenje: Tri ključna otkrića

Prvo otkriće: Podeli i vladaj

Umesto jednog modela, napravili su dva agenta:

Manager – pravi plan i nadgleda izvršavanje
Worker – samo izvršava pojedinačne korake

Čim smo podelili uloge, rezultati su se poboljšali duplo.

Manager ne izvršava akcije sam, već delegira workeru koji klikće po ekranu.

Worker ne treba da zna ceo plan – kada ti kažem “klikni na to dugme”, ne treba da znaš šta sledi ili šta si radio ranije.

Drugo otkriće: Specijalizovani vizuelni model

Za pronalaženje elemenata na ekranu koriste Molmo – 7B model od Allen AI instituta, treniran za vojnu upotrebu.

Trebalo je da pomaže dronovima da pronađu koordinate na osnovu slike.

Ispostavilo se da fantastično radi i za GUI.

Worker kaže “hoću da kliknem na plavo dugme za slanje u donjem desnom uglu” – isto kao što bi rekao čoveku.

Mi uzimamo taj opis i dajemo ga Molmo modelu koji pronalazi tačne koordinate.

Treće otkriće: Epizodno pamćenje

Ključno otkriće bilo je da worker ne treba da zna ceo plan.

Napravili smo nešto što interno zovemo epizodno pamćenje.

Worker je svestan samo trenutnog zadatka koji radi, trenutnog stanja ekrana i malog notepad-a koji koristi za beleške. Ako se zaglave ili nešto ne radi, pozove managera i kaže “hej, ovo ne radi, šta je problem?” Manager onda samo napravi novi plan.

Rezultat? Kako Jovan kaže, agent koji može da otvori brauzer i uradi za vas ovaj izuzetno važan zadatak, ali i druge, složenije poslovne procese.

Zašto je ovo važno

Jovanov klijent, Insightful – platforma za praćenje produktivnosti sa >250.000 korisnika – identifikovao je problem: njihovi klijenti troše ogromno vreme na dosadne, repetitivne zadatke.

Tokom sezonskih špiceva, kao što je poreska sezona, ljudi masovno zapošljavaju ljude koji treba da sednu i kucaju po tastaturi i pritiskaju dugmiće.

To je repetitivan zadatak, a opet sklon greškama za ljude.

Ne isplati se praviti specifičan softver za automatizaciju svakog zadatka ponaosob – ne skalira se, skupo je.

Computer use agenti nude “one size fits all” rešenje.

Umesto da programiraš integraciju sa svakim sistemom, kažeš agentu: “Idi na Hubspot, pronađi kompaniju Startit, ostavi napomenu da ćemo podržati AI Weekend Belgrade.” Agent to radi kao što bi radio čovek.

Za banke, osiguravajuće kuće i operativne timove, ovo otvara vrata ka pouzdanoj automatizaciji koja se može nadgledati i kontrolisati.

Šta ovo znači za tebe

Dve stvari.

Jovanova priča ilustruje ključnu lekciju: ne moraš čekati sledeći GPT da bi napravio nešto revolucionarno, a možda i ne bi smeo da čekaš — ljudi poput Jovana uveliko rade na tome da iscede poslednju kap funkcionalnosti iz trenutnih modela. A ne samo da tu ima dosta toga da se cedi nego će oni biti u boljoj poziciji da iskoriste i narednu generaciju.

Druga — ako čitaš ovaj članak do kraja, i naredni Hot AI Summer događaji će ti biti korisni, za početak ovaj:

U sredu 23. jula nam je gost nedelje Ivan Petrović, osnivač Insightful-a koji transformiše svoju workforce analytics kompaniju od 100+ zaposlenih u agentic software firmu.

Ivan će pokazati sledeću iteraciju computer-use proizvoda razvijenog interno u Insightful-u i podeliti konkretna iskustva u izgradnji AI-first proizvoda.

Vidi detalje i prijavi se.

Hot AI Summer je projekat Startita i OTP Banke, svake srede besplatan coworking (10-18h) i meetup (18-20h) u beogradskom Startitu.