Společnost Anthropic představila další generaci svých AI modelů. Už nyní je dostupný Claude Sonnet 4 a výkonnější, ale zato dražší Claude Opus 4, které mají nastavit nové standardy v oblasti programování a pokročilého uvažování. Usnadnit mají práci jak vývojářům, tak i běžným uživatelům.

Opus 4 překonává konkurenci v benchmarcích

Claude Opus 4 dominuje v testech zaměřených na programování, konkrétně dosahuje 72,5 % úspěšnosti v SWE-bench a 43,2 % v Terminal-bench (oba se zaměřují na řešení softwarových problémů). Tento model údajně dokáže pracovat nepřetržitě několik hodin na složitých úkolech vyžadujících tisíce kroků, což dramaticky rozšiřuje možnosti AI agentů. V testování u zákazníků měl fungovat autonomně po dobu sedmi hodin bez zásahu člověka.

Významné společnosti jako Cursor označují Opus 4 za průlomový krok v porozumění složitých kódových bází, zatímco Replit hlásí dramatické pokroky při úpravách napříč více soubory současně. Společnost Block potvrzuje, že jde o první model, který skutečně zlepšuje kvalitu kódu během editace a ladění.

Sonnet 4 nabízí optimální poměr výkonu a efektivity

Claude Sonnet 4 představuje výrazné vylepšení oproti předchozí verzi Sonnet 3.7 a dosahuje 72,7 % úspěšnosti v SWE-bench. Model je navržen jako přímá náhrada svého předchůdce a nabízí vylepšené programování a matematické schopnosti při zachování vysoké efektivity provozu.

GitHub oznámil, že Sonnet 4 bude sloužit jako základní model pro nového programátorského agenta v GitHub Copilot. Vývojáři oceňují jeho zlepšené sledování složitých instrukcí a podstatné snížení navigačních chyb z 20 % téměř na nulu.

Hybridní architektura s rozšířeným myšlením

Oba modely fungují v hybridním režimu, který umožňuje jak okamžité odpovědi, tak rozšířené uvažování pro hlubší analýzu problémů. Nová funkce rozšířeného myšlení („extended thinking“) dovoluje modelům alternovat mezi uvažováním a používáním nástrojů, jako je webové vyhledávání pro zlepšení kvality odpovědí.

Anthropic také představil takzvané souhrny uvažování („thinking summaries“), které z dlouhých myšlenkových pochodů modelu vytvoří krátký souhrn. Že by byl proces přemýšlení tak komplexní, aby si jej uživatel nemohl přečíst na první dobrou, se ale stává málokdy – nová vychytávka tak má být potřebná pouze v 5 % případů. Pro pokročilé uživatele bude naopak k dispozici Developer Mode s přístupem k úplným myšlenkovým řetězcům.

Claude Code dostává nové možnosti

Společně s novými modely Anthropic uvedlo do obecné dostupnosti Claude Code, své nástroje pro programování přímo v terminálu. Nové beta rozšíření pro VS Code a JetBrains integrují Claude Code přímo do vývojového prostředí, přičemž navrhované úpravy se zobrazují inline přímo v souborech.

Claude Code SDK umožňuje vývojářům vytvářet vlastní agenty a aplikace využívající stejné jádro jako Claude Code. K dispozici je také beta verze pro GitHub, která dokáže reagovat na feedback recenzentů nebo opravovat chyby v continuous integration.

Dostupnost a ceny zůstávají stejné

Claude Sonnet 4 je dostupný i uživatelům bezplatné verze, zatímco Opus 4 už vyžaduje pořízení některého z prémiových balíčků. Ceny v API platformách jako Vertex AI od Googlu nebo Bedrock od Amazonu se oproti předchůdcům nijak nezměnily.

Zaujaly vás nové modely Claude?

Zdroje: Anthropic, TechCrunch, The Verge, vlastní