DeepSeek vam verovatno izlazi iz frižidera. U pitanju je stvarno velika stvar, evo zašto

To što performira jednako dobro kao najnapredniji zapadni model, za 30 puta manju cenu je samo jedan od razloga.

Vukašin Stojkov
30/01/2025

Prošle nedelje, kineski startap DeepSeek objavio je rad koji je izazvao ozbiljan potres u svetu veštačke inteligencije. Verovatno je ta informacija već stigla do vas jer priče o DeepSeeku ovih dana iskaču iz frižidera, ali to se dešava sa dosta dobrim razlogom.

Njihov novi model, DeepSeek-R1, je gotovo jednako dobar sa najnaprednijim “zapadnim” modelom današnjice, o1, a od njega je za korišćenje jeftiniji i do 30 puta, pri čemu je njegov CoT, unutrašnji lanac razmišljanja, vidljiv korisniku. Obe ove stvari ga čine izvanredno vrednim iz korisničke perspektive.

Uz sve to, navodno je razvijen sa samo 2.048 Nvidia H800 čipova i budžetom od približno 5,6 miliona dolara — što je tek delić resursa koje koriste američke AI kompanije za treniranje svojih modela. Radi poređenja, OpenAI i Google ulažu desetine milijardi dolara u treniranje modela. Napomena — ovi drugi osporavaju tvrdnje ovih prvih.

Ali šta se to mene tiče?

Možemo reći da je sva ta priča filozofska, a ujedno može biti istinito da ima i stvarne implikacije:

Kako je to brat Kinez napravio? Za nas normije

Ograničeni resursi Deep Seek-a u pogledu čipova nisu bili slučajnost: američke sankcije sprečile su kineske kompanije da nabave najnaprednije AI čipove poput Nvidia H100, primoravajući ih da pronađu kreativna rešenja sa dostupnom tehnologijom.

Ono što je počelo kao prepreka pretvorilo se u prednost. Suočen sa hardverskim ograničenjima, DeepSeek tim je razvio inovativne metode optimizacije koje su omogućile da sa skromnijim čipovima postignu rezultate koji pariraju modelima treniranim na najmoćnijim procesorima.

Sa 671 milijardom parametara, njihov model se pokazao konkurentnim vodećim američkim modelima (deluje da sada postoji konsenzus da R1 na dosta polja performira jednako dobro ili bolje od o1, najnaprednijeg modela OpenAI-a).

Kako je to brat Kinez napravio? Za (AI) inženjere

Ovde ćemo predati mikrofon jednom blogeru čije objašnjenje je, deluje bar tako po konsenzusu, najbolji odnos između razumljivog i tehničkog.

Dajemo izvod na originalnom engleskom, uz link ka članku (upozorenje, ima ga):

A major innovation is their sophisticated mixed-precision training framework that lets them use 8-bit floating point numbers (FP8) throughout the entire training process. Most Western AI labs train using “full precision” 32-bit numbers…

The main tradeoff is that while FP32 can store numbers with incredible precision across an enormous range, FP8 sacrifices some of that precision to save memory and boost performance, while still maintaining enough accuracy for many AI workloads.

Another major breakthrough is their multi-token prediction system. Most Transformer based LLM models do inference by predicting the next token— one token at a time. DeepSeek figured out how to predict multiple tokens while maintaining the quality you’d get from single-token prediction. Their approach achieves about 85-90% accuracy on these additional token predictions, which effectively doubles inference speed without sacrificing much quality.

One of their most innovative developments is what they call Multi-head Latent Attention (MLA). This is a breakthrough in how they handle what are called the Key-Value indices, which are basically how individual tokens are represented in the attention mechanism within the Transformer architecture.

Another very smart thing they did is to use what is known as a Mixture-of-Experts (MOE) Transformer architecture, but with key innovations around load balancing.

Vukašin Stojkov

Objavio/la članak.

četvrtak, 30. Januar, 2025.

IT Industrija

🔥 Najčitanije