Prošle subote Čamat Palihapitija, osnivač Social Capitala i jedan od voditelja popularnog All-In podkasta, objavio je tvit koji je počeo jednostavno, sa Wow.
Wow.
As mentioned on @theallinpod a few weeks ago, there is lots of decode silicon coming… https://t.co/placeholder
— Chamath Palihapitiya (@chamath) February 21, 2026
Reagovao je na lansiranje Taalas-a — novog AI čip startapa koji tvrdi da može da pokrene Llama 3.1 model brzinom od 17.000 tokena po sekundi po korisniku.
To je, prema njihovim podacima, skoro 10 puta brže od bilo čega što trenutno postoji na tržištu. Iza tog startapa stoji Ljubiša Bajić.
Bajićeva karijera pre Taalasa
Bajić je odrastao u Jugoslaviji, a srednju školu je završio u Moskvi, privučen jakom matematičkom tradicijom.
Godine 1985. se preselio u Kanadu da studira elektrotehniku, a odatle je otišao u Silicijumsku Dolinu, gde je godinama radio na dizajnu čipova — kao direktor u AMDu i kao senior arhitekta u Nvidiji.
Godine 2016. osnovao je Tenstorrent zajedno sa Ivanom Hamerom i Milošem Trajkovićem. Kompanija je krenula iz podruma, a danas ima preko hiljadu zaposlenih u kancelarijama širom sveta — uključujući i kancelariju u Beogradu koju je Bajić lično otvorio.
Kada je Džim Keler postao CEO Tenstorrenta 2023. godine, Bajić se povukao iz operativne uloge i posle šest meseci počeo da radi na potpuno drugačijoj ideji.
Taalas — jedan čip, jedan model
Ideja iza Taalasa je drugačija od ostatka industrije: umesto da praviš čipove koji mogu da pokrenu bilo koji model (kao što to rade Nvidia, Groq, Cerebras i ostali), napravi čip koji je dizajniran da pokrene samo jedan specifičan model — ali da to uradi brzo i jeftino.
HC1, njihov prvi čip, ima Llama 3.1 8B model bukvalno "utisnut" u silicijum. Model je hardverski deo čipa — bez učitavanja težina iz eksterne memorije, bez hlađenja vodom.
Tim od 24 ljudi potrošio je 30 miliona dolara na razvoj i dobio ovo:
Taalas' silicon Llama achieves 17K tokens/sec per user, nearly 10X faster than current state of the art, costing 20X less to build, consuming 10X less power. pic.twitter.com/placeholder
— taoki (@justalexoki) February 20, 2026
Za kontekst, evo šta to znači u praksi:
For reference it takes around 0.4 seconds to blink.
This is a full novel in ~7 seconds.
Harry Potter and the Goblet of Fire in ~16 seconds.
A feature length screenplay in ~2 sec
100k lines of code in 38 seconds…
— Nick St. Pierre (@nickfloats) February 21, 2026
Reakcije i kompromisi
Reakcije na Taalas su bile pomešane:
Completely fascinating demo, a glimpse of the future for research, coding, and image/video gen. There are real tradeoffs to consider.
The $30M spent claim is real but "extreme specialization" is too. Basically an ASIC per model release, from the co-founders of Tenstorrent.
— Jordan Nanos (@JordanNanos) February 20, 2026
Upravo tu je i glavni kompromis: ako napraviš čip za jedan model, moraš napraviti novi čip za svaki novi model. Za Llama 4 — novi čip. Za GPT-5 — novi čip.
Ali specijalizacija ne znači nužno zaključanost:
It's real. Try it yourself. At ~16k tokens/sec, the output is instantaneous.
The current demo model is aggressively quantized (roughly 3–6 bits). The goal was to prove the system works end-to-end. Improving quantization quality, that's the easy part.
Their next iteration, a mid-size reasoning LLM, will be much more accurate.
The weights are frozen, but the chip supports LoRA adapters (high-rank), so you can still adapt it to your domain.
— Benjamin Marie (@bnjmn_marie) February 21, 2026
"Zamislite Opus 5 ovom brzinom"
A šta ako ovakva brzina postane dostupna za ozbiljne modele?
Imagine Opus 5 running this fast and you'll understand why I told you tech debt was going to be inflated away.
Code will flow like water.
— gfodor (@gfodor) February 21, 2026
Naravno, bilo je i onih koji su ovako zamišljali primenu:
They spent 30 million dollars creating the fastest AI in existence.
It's going to change the way we work forever.
Imagine: Someone hits send on an email to you. Literally the next picosecond, they have a reply: 25 paragraphs of total dogshit.
They send another email – "Is this AI??" INSTANT response. THIRTY-TWO paragraphs this time.
— Lukas (@hyperonline) February 20, 2026
A bilo je i iskrenih reakcija tipa "šta će mi ovo":
Wtf am I supposed to do with 17k llama 3.1 tokens per second
— Super Dario (@inductionheads) February 21, 2026
Šta dalje
Taalas je do sada prikupio oko 219 miliona dolara u tri runde finansiranja.
Plan za 2026. uključuje dva nova čipa: jedan za reasoning model srednje veličine ovog proleća, i jedan za najnapredniju klasu modela (frontier — tu spadaju GPT-4, Claude Opus i slični) na kraju godine. Prema najavama samog Taalasa, cilj je da njihov čip podrži model na nivou GPT-5.
Pitanje da li se specijalizovani čipovi za pojedinačne modele zaista isplate — ili je industrija prebrza za takav pristup — verovatno ćemo znati pre kraja godine.
Za one koji žele da probaju — demo je dostupan na chatjimmy.ai.