Anthropic je objavio ažuriranje skill-creatora koje donosi testove, merenje i automatsku optimizaciju za Claude skillove. Ako koristiš Claude za posao, ovo menja način na koji praviš i održavaš instrukcije koje mu daješ.

Skill je markdown fajl (obično SKILL.md) koji Claudeu objašnjava kako da uradi nešto specifično: da ti napiše izveštaj, pregleda NDA, generiše PDF u tačno onom formatu koji ti treba. Do sada su funkcionisali po principu "napiši i nadaj se" — napišeš instrukcije, probaš, ispraviš, probaš opet.

Šta je novo

Ažuriranje donosi tri stvari: evaluacije, benchmark mod i optimizaciju opisa.

Evaluacije

Možeš da napišeš testove za svoj skill: zadaš prompt i definišeš šta očekuješ kao rezultat. To hvata regresije (skill prestane da radi posle ažuriranja modela) i signalizira kad je skill nepotreban jer je novi model već naučio ono što si ručno opisivao.

Konkretan primer: PDF skill je imao problem sa formularima koji se ne mogu popunjavati. Evaluacija je identifikovala tačno gde padne i omogućila ciljani fix.

Benchmark mod

Svaki put kad pokreneš evaluacije, dobijaš tri metrike: procenat uspešnosti, utrošeno vreme i broj tokena. Evaluacije se pokreću paralelno, svaka u izolovanom kontekstu. Moguće je i A/B testiranje: uporediš dve verzije skilla sa nezavisnim agentom koji procenjuje kvalitet ne znajući koja je koja.

Optimizacija opisa

Kada imaš više skillova, Claude mora da zna koji da aktivira za koji prompt. Sistem analizira opise i predlaže izmene koje smanjuju pogrešno aktiviranje i propušteno aktiviranje. Testirano na šest javnih skillova, poboljšano kod pet.

Zašto je ovo bitno

Anthropic je primetio da većina autora skillova nisu inženjeri, nego ljudi koji razumeju svoj posao i hteli bi da ga automatizuju. Nedostajao im je alat za proveru i merenje. Ovo je to.

Kako modeli postaju bolji, razlika između "skilla" i "specifikacije" će se smanjivati. Danas su SKILL.md fajlovi detaljni planovi sa korak-po-korak instrukcijama. Sutra bi moglo biti dovoljno da opišeš šta hoćeš, a model sam odluči kako. Eval sistem već radi na tom principu: opisuje šta, ne kako.

Dostupno na Claude.ai, Coworku i kao plugin za Claude Code.