Anthropic je objavio ažuriranje skill-creatora koje donosi testove, merenje i automatsku optimizaciju za Claude skillove. Ako koristiš Claude za posao, ovo menja način na koji praviš i održavaš instrukcije koje mu daješ.
Skill je markdown fajl (obično SKILL.md) koji Claudeu objašnjava kako da uradi nešto specifično: da ti napiše izveštaj, pregleda NDA, generiše PDF u tačno onom formatu koji ti treba. Do sada su funkcionisali po principu "napiši i nadaj se" — napišeš instrukcije, probaš, ispraviš, probaš opet.
Šta je novo
Ažuriranje donosi tri stvari: evaluacije, benchmark mod i optimizaciju opisa.
Evaluacije
Možeš da napišeš testove za svoj skill: zadaš prompt i definišeš šta očekuješ kao rezultat. To hvata regresije (skill prestane da radi posle ažuriranja modela) i signalizira kad je skill nepotreban jer je novi model već naučio ono što si ručno opisivao.
Konkretan primer: PDF skill je imao problem sa formularima koji se ne mogu popunjavati. Evaluacija je identifikovala tačno gde padne i omogućila ciljani fix.
Benchmark mod
Svaki put kad pokreneš evaluacije, dobijaš tri metrike: procenat uspešnosti, utrošeno vreme i broj tokena. Evaluacije se pokreću paralelno, svaka u izolovanom kontekstu. Moguće je i A/B testiranje: uporediš dve verzije skilla sa nezavisnim agentom koji procenjuje kvalitet ne znajući koja je koja.
Optimizacija opisa
Kada imaš više skillova, Claude mora da zna koji da aktivira za koji prompt. Sistem analizira opise i predlaže izmene koje smanjuju pogrešno aktiviranje i propušteno aktiviranje. Testirano na šest javnih skillova, poboljšano kod pet.
check out the updated skill-creator. i esp like built-in support for test generation (e.g., to measure + optimize tricky things like skill trigger rate). available in Claude Code as plugin, https://t.co/K3nY8o6Zw7, + Cowork. pic.twitter.com/Tf89WIknOe
— Lance Martin (@RLanceMartin) March 3, 2026
Zašto je ovo bitno
Anthropic je primetio da većina autora skillova nisu inženjeri, nego ljudi koji razumeju svoj posao i hteli bi da ga automatizuju. Nedostajao im je alat za proveru i merenje. Ovo je to.
Kako modeli postaju bolji, razlika između "skilla" i "specifikacije" će se smanjivati. Danas su SKILL.md fajlovi detaljni planovi sa korak-po-korak instrukcijama. Sutra bi moglo biti dovoljno da opišeš šta hoćeš, a model sam odluči kako. Eval sistem već radi na tom principu: opisuje šta, ne kako.
Dostupno na Claude.ai, Coworku i kao plugin za Claude Code.