Zadáte ráno, večer je hotovo! Claude Sonnet 4.5 mění pravidla hry

Firma Anthropic uvedla Claude Sonnet 4.5, který vede žebříčky v kódovacích benchmarcích jako SWE-bench
Model dokáže pracovat autonomně až 30 hodin, oproti 7 hodinám u předchůdce Opus 4
Cena zůstává stejná jako u Sonnet 4: 3 dolary za milion vstupních tokenů, 15 za výstupní

Sdílejte:

Jakub Kárník

Publikováno: 30.9.2025 14:00

Žádné komentáře

Startup Anthropic, který stojí za chatbotem Claude, právě představil nový model Claude Sonnet 4.5. Společnost jej označuje za nejlepší kodérský AI model na světě a nejvýkonnější nástroj pro práci s počítačem. Ve skutečnosti jde o evoluční, nikoliv revoluční krok vpřed – ovšem s několika působivými čísly.

Třicet hodin nepřetržité práce
Benchmarky: První místo, ale ne ve všem
Agent SDK a nové funkce pro vývojáře
Bezpečnost a "zarovnání"
Experimentální "Imagine with Claude"
Cena a dostupnost
Konkurence spí, nebo ne?

Třicet hodin nepřetržité práce

Hlavní novinkou je schopnost Sonnet 4.5 pracovat autonomně až 30 hodin. To je výrazný skok oproti modelu Opus 4 z května, který vydržel maximálně sedm hodin. Během interního testu vytvořil Sonnet 4.5 fungující klon komunikační aplikace typu Slack nebo Teams – a napsal k tomu přibližně 11 000 řádků kódu.

Antropic tvrdí, že model si udržuje pozornost i během několikadenních úkolů, aniž by ztratil kontext. V praxi to znamená, že vývojář může zadat složitý požadavek ráno a večer si vyzvednout hotový výsledek. Zní to efektně, ale realita bude asi prozaičtější – málokterý projekt se obejde bez lidského dohledu a iterací.

Benchmarky: První místo, ale ne ve všem

Claude Sonnet 4.5 vévodí SWE-bench Verified, což je benchmark měřící schopnost řešit reálné softwarové úkoly. Antropic dosáhl průměrného skóre 77,2 % ze série deseti pokusů. S pokročilými technikami jako paralelní test-time compute se skóre vyšplhalo na 82,0 %.

Další impozantní výsledek přišel z OSWorld, benchmarku pro ovládání počítače – Sonnet 4.5 zde dosáhl 61,4 %, zatímco předchůdce Sonnet 4 loni skóroval 42,2 %. Model dokáže procházet weby, vyplňovat tabulky a plnit vícevrstvé úkoly přímo v prohlížeči.

Antropic zveřejnil i výsledky z matematických a logických testů (AIME, GPQA Diamond), kde Sonnet 4.5 překonává starší modely Claude, ale v některých kategoriích zaostává za OpenAI GPT-5 nebo Googlem Gemini 2.5 Pro. Zajímavé je, že model se osvědčil především v odborných oblastech jako finance, právo, medicína a STEM – i když i tam zatím dosahuje jen „známky C až D“.

Agent SDK a nové funkce pro vývojáře

Antropic uvolnil Claude Agent SDK – infrastrukturu, na níž běží jejich vlastní nástroj Claude Code. Vývojáři tak dostanou do rukou stavební bloky pro tvorbu vlastních AI agentů. SDK zahrnuje správu paměti, systém oprávnění a koordinaci mezi více agenty pracujícími na jednom cíli.

Do Claude Code přibyly checkpointy – možnost uložit průběžný stav práce a kdykoliv se k němu vrátit. Terminal prošel redesignem a přibyla i nativní integrace pro VS Code. V aplikacích Claude je nově k dispozici spouštění kódu a tvorba souborů (tabulky, prezentace, dokumenty) přímo v konverzaci.

Uživatelé prémiového tarifu Claude Max, kteří se přihlásili do čekací listiny, získali přístup k rozšíření pro Chrome. To umožňuje Claudeovi pracovat přímo v prohlížeči – vyplňovat formuláře, procházet stránky a automatizovat opakující se úkoly.

Bezpečnost a „zarovnání“

Antropic klade velký důraz na to, že Sonnet 4.5 je jejich nejvíce „zarovnaný“ model (aligned model). V praxi to znamená, že se model méně často chová manipulativně – sníží se výskyt lichotek, klamavého chování, touhy po moci nebo podpory bludných představ uživatele.

Model je chráněn bezpečnostním rámcem ASL-3, který zahrnuje klasifikátory detekující nebezpečné vstupy a výstupy – zejména ty spojené se zbraněmi hromadného ničení (CBRN).

Počet falešně pozitivních detekí se od května snížil na polovinu a od původního uvedení dokonce desetinásobně. Společnost slibuje další zlepšení.

Experimentální „Imagine with Claude“

Společně se Sonnet 4.5 Antropic spustil dočasný experiment „Imagine with Claude“. Jde o nástroj, který generuje software za běhu – žádná funkcionalita není předprogramovaná, Claude vytváří kód v reálném čase podle požadavků uživatele.

Experiment je dostupný pro předplatitele Claude Max po dobu pěti dnů na adrese claude.ai/imagine. Antropic jej označuje za ukázku toho, co je možné, když spojíte výkonný model se správnou infrastrukturou.

Cena a dostupnost

Claude Sonnet 4.5 je dostupný od dneška přes API pod označením claude-sonnet-4-5. Cenová politika zůstává stejná jako u Sonnet 4: 3 dolary za milion vstupních tokenů a 15 dolarů za milion výstupních tokenů.

Model lze používat v aplikacích Claude (web, mobil, desktop), přes API nebo v nástroji Claude Code. Aktualizace Claude Code jsou dostupné všem uživatelům, stejně jako funkce Agent SDK pro vývojáře. Spouštění kódu a tvorba souborů fungují ve všech placených tarifech aplikací Claude.

Konkurence spí, nebo ne?

Bitva o pozornost vývojářů a firemních zákazníků se vede téměř týden co týden. OpenAI před pár dny představilo Pulse – funkci ChatGPT pro ranní rutinu a průběžný research. Google stále ladí své Gemini a tlačí integraci do firemních nástrojů.

Co říkáte na nový model Sonnet 4.5?

Zdroj: Anthropic, The Verge

O autorovi

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Více o autorovi

Sdílejte: