Claude Sonnet 5を、​分かりやすく​ ──"Opusに​迫る​力"を​半額以下で​回すエージェント向けモデル

Anthropicが新モデル Claude Sonnet 5 を発表。ひとことで言えば「最上位のOpus 4.8に肉薄する力を、半額以下で回せる中位モデル」だ。公式は「最も自律的なSonnet」と位置づけ、無料・Proの標準モデルに。計画→ブラウザ/ターミナル操作→自律で完走のエージェント性能、100万トークンの文脈、$2/$10の導入価格(〜8/31)、Opus 4.8との差、使いどころと使う前の注意まで——毎日Claudeで開発する現場目線で分かりやすく整理する。

甲斐ショウジ甲斐ショウジ
CAG主宰/合同会社ATK CAIO(最高AI責任者)
技術12分で読めます
技術Claude Sonnet 5を、分かりやすく ──"Opusに迫る力"を半額以下で回すエージェント向けモデル

気になるAIモデルを、分かりやすく | 最新動向を、現場目線で

2026年6月30日、AnthropicがClaudeの新モデル——Claude Sonnet 5を発表した。[1]ひとことで言うと、「最上位のOpusに肉薄する力を、半額以下の値段で回せる中位モデル」だ。しかも公式は「これまでで最も自律的(エージェント的)なSonnet」と位置づけている。発表と同時に、無料プランとProプランの標準モデルにもなった。

ニュースとしては「新しいSonnetが出た」で終わりがちだが、実際に触る側からすると論点はもう少し具体的だ。何が新しくて、上位のOpus 4.8にどこまで迫っていて、いくらで、そして何に使えるのか。私たち電脳技巧集団も毎日Claudeでものを作っているので、スペック表としてではなく「で、日々の開発は何が変わるのか」という目線で、Sonnet 5を分かりやすく読み解いていく。[2]

ダークテーマの開発者ワークスペース。左にコードエディタ、中央にターミナル、右にブラウザの3画面が並び、AIが自律的にタスクを進めている。画面上部に Claude Sonnet 5 の表示
コードエディタ・ターミナル・ブラウザを、AIが自分で使って仕事を進める——Sonnet 5が推す「自律で走る」の姿

01そも​そも、​何が​出たのか

まず全体像から。Anthropicの「Claude」には、用途と価格で分かれた複数のモデルがある。速くて安いHaiku、バランス型のSonnet、最上位のOpus——という並びだ。今回はその真ん中、Sonnetのメジャー更新にあたる。[1]

Sonnet 5の売りを、公式は一貫して「最も自律的なSonnet」と表現している。単発の質問に賢く答えるだけでなく、自分で計画を立て、ブラウザやターミナルといった道具を使い、人が細かく指示しなくても最後まで走り切る——そういう"エージェント"としての性能を前面に押し出したモデルだ。公式の言葉では「ほんの数か月前なら、もっと大きく高価なモデルを必要とした水準の自律動作」をこなす、とされている。[1]

この「Opusの領域に、Sonnetが値段を抑えて近づいてきた」という構図が、今回のいちばんの読みどころだ。ちなみに、Opusのさらに上に置かれた"Mythosクラス"という別の話は、少し前に別記事で解説している。あわせて読むと、Claudeのモデル体系の全体像がつかみやすい。

Claude Fable 5 解説記事のサムネイル 関連記事 | Opusの"上"の新クラスClaude Fable 5 が来た ──"Opusの上"の新クラス、開発者は何を知るべきか

02新しさ①:主役は​「自律で​走る」

Sonnet 5がいちばん力を入れたのは、賢さそのものより「道具を使って自分で進める力」だ。AIに仕事を任せる形が、"チャットで一問一答"から"エージェントに作業ごと預ける"へ移っている今、ここは実務に直結する。

具体的には、計画を立てる → ブラウザやターミナルなどの道具を呼ぶ → 結果を見て次の手を決める、という一連のループを、途中で迷子にならず回し続けられるかどうか。従来は、数十のファイルにまたがる作業や、何十ステップも続く手順の途中で「文脈を見失う」「辻褄が合わなくなる」ことが起きがちだった。Sonnet 5は、この"長い自律ループの粘り強さ"を鍛えたモデルだ。実際、自動化ツールを手がけるZapierの担当者は、「以前は途中で止まっていた複雑な複数工程のタスクが、最後まで完走するようになった」と述べ、日常業務の自動化に使える水準になったとコメントしている。[3]

① 計画を立てるタスクを分解 ② 道具を使うブラウザ / ターミナルエディタ / ファイル操作自分で呼び出す ③ 結果を見て直す次の手を決める 完了まで、このループを自分で回し続ける
計画→道具→観察のループを、途中で見失わず最後まで回す——Sonnet 5が磨いた"自律で走る"力

この「途中で止まらず完走する」感覚は、地味だが効く。AIエージェントは、9割正しくても最後の1割で脱線すると成果物が使い物にならない。だからこそ「長い手順を、崩れずに通し切れるか」が、賢さの数字以上に現場での使えるかどうかを左右する。上位モデルの"harness(作業環境)"を活かす議論とも地続きの話だ。

harness-over-strongest-model 記事のサムネイル 関連記事 | モデルより"作業環境"最強モデルより、作業環境(harness)で差がつく ──AI開発の主戦場はどこに移ったか

03新しさ②:Opus 4.8に、​どこまで​迫ったか

次は数字の話。Sonnet 5は、前世代のSonnet 4.6を公開ベンチマークで軒並み上回り、最上位のOpus 4.8との差をかなり詰めた。開発者に関わりの深い指標を並べてみる。あくまでAnthropicの発表・各種まとめに基づく数値で、額面どおりに受け取りすぎず"傾向"として読むのが健全だ。[4]

ベンチマーク(内容)Sonnet 4.6Sonnet 5Opus 4.8
SWE-bench Pro
(エージェント的コーディング)
58.1%63.2%69.2%
Terminal-Bench 2.1
(ターミナル操作)
67.0%80.4%
OSWorld-Verified
(コンピュータ操作)
78.5%81.2%
Humanity's Last Exam
(高難度知識・ツール使用時)
46.8%57.4%57.9%
GDPval-AA v2
(知識作業スコア)
1,6181,615

※ Anthropic公式発表(2026-06-30)および各種技術メディアのまとめに基づく数値。「—」は非公表。CAG自身の検証結果ではない。

表で目を引くのは2つ。ひとつはTerminal-Bench 2.1が67.0%→80.4%と大きく伸びたこと——まさに"道具を使って自律で走る"の中核だ。もうひとつは、難関のHumanity's Last Exam(ツール使用時)で57.4%と、Opus 4.8の57.9%にほぼ並んだこと。知識作業のGDPvalに至っては、僅差ながらOpusをわずかに上回っている。一方で、純粋なコーディング力を測るSWE-bench Proでは、まだOpus 4.8(69.2%)に一歩譲る。「多くの実務では十分にOpus級、最難関のコーディングはまだOpus」——この温度感が、今回のSonnet 5の実像に近い。

0 100 58.1 63.2 69.2 SWE-bench Pro 67.0 80.4 n/a Terminal-Bench 78.5 81.2 n/a OSWorld 46.8 57.4 57.9 HLE(tools) Sonnet 4.6 Sonnet 5 Opus 4.8
前世代を明確に上回り、指標によってはOpus 4.8に肉薄——コーディング最難関だけはまだOpus優位(公式・各種まとめより)

04新しさ③:"Opus級の​体験"を、​半額以下で

ここが今回いちばん実務に効く話だ。Sonnet 5は性能だけでなく価格でニュースになった。しかも発表から2026年8月31日までは、さらに割り引いた導入価格で使える。従来の各モデルと並べてみる。[5]

モデル入力(/100万tok)出力(/100万tok)
Claude Sonnet 5
(導入価格・〜8/31)
$2$10
Claude Sonnet 5
(通常・9/1〜)
$3$15
Claude Sonnet 4.6(前世代)$3$15
Claude Opus 4.8(最上位)$5$25

※ 100万トークンあたり・Anthropic公式料金より。導入価格は2026年8月31日まで。9月以降は前世代Sonnet 4.6と同額に。

読み方はシンプルだ。導入価格なら、Opus 4.8のおよそ4割の値段(入力$2 vs $5・出力$10 vs $25)で、多くの用途でOpusに近い品質が手に入る。9月以降に通常価格へ戻っても、前世代Sonnet 4.6と同じ$3/$15のまま中身だけ強くなる、という据え置きだ。公式・報道はいずれも、Sonnet 5をOpus 4.8はもちろん、競合のGPT-5.5やGemini 3.1 Proより安い価格帯に置いている、と伝えている。[5]

出力トークン単価(/100万tok・安いほど短い) Sonnet 5 (導入)$10 Sonnet 5 (通常) / 4.6$15 Opus 4.8$25
導入価格のSonnet 5はOpus 4.8の約4割——"最上位に近い体験を、桁が一つ軽い感覚で回せる"のが今回の肝(公式料金より)

05地味に​効く​:100万トークンの​文脈と、​静かな​安全性

性能・価格に隠れがちだが、実務で効く更新がもう2つある。100万トークンの長い文脈(コンテキストウィンドウ)と、安全性の底上げだ。

まず文脈。Sonnet 5は1M(100万)トークンを扱える。ざっくり言えば、大きめのコードベースや長い資料の束を、丸ごと視野に入れたまま作業できるということ。前章の「長い自律ループで迷子にならない」と組み合わさると、大規模な移行や横断的な調査を、途中で記憶を落とさず通しやすくなる。エージェント用途とはもともと相性がいい。

もう一つが安全性。公式は、前世代Sonnet 4.6と比べて望ましくない振る舞いが減り、悪意ある要求をより確実に断り、プロンプトインジェクション(外部から差し込まれる不正な指示)への耐性が上がったと説明している。加えて、事実と異なる出力(ハルシネーション)や過剰な同調(追従)も減り、サイバー面の安全装置が既定で有効化されている。象徴的なのは、実際に動く完全なソフトウェア脆弱性(exploit)を作らせる評価で0.0%だったという数字だ。エージェントに道具と権限を渡して自律で動かすほど、この"静かな堅牢性"は効いてくる。[6]

ダークテーマのエージェント実行ダッシュボード。複数の工程が並び、すべてにチェックマークが付いて完了している。長い一連の作業が最後まで通ったことを示す画面
長い工程が、途中で止まらず全部"完了"まで並ぶ——1Mの文脈と自律ループの粘り強さが噛み合った姿

06で、​何に​使えるのか

ここまでを踏まえて、Sonnet 5は「どこで使うのが得か」を整理する。ざっくり言えば、「Opusを常用するほどではないが、賢さと自律性は欲しい」実務のど真ん中がハマる。

  • 日常業務の自動化:複数工程にまたがる手順(データ取得→整形→通知、問い合わせの一次対応、定型レポート生成など)を、途中で止まらず最後まで回す。前述のZapierのコメントは、まさにこの用途だ。
  • コーディングエージェント:Claude Codeの標準的な相棒として、調査・修正・テストの反復を安価に長時間回す。最難関の一発コーディングはOpusに任せ、日々の大半をSonnet 5で。
  • ブラウザ・コンピュータ操作:Terminal-BenchやOSWorldの伸びが示すとおり、画面やターミナルを使う作業と相性がいい。
  • 大きな文脈の読み込み:1Mトークンを活かし、長い仕様書やログ、コードベース横断の調査に。

私たちも普段、重い一発仕事は上位モデル、量をこなす反復は中位モデル、という使い分けで開発している。Sonnet 5の登場は、この「中位で回せる範囲」を一段広げてくれる。何でも最上位に投げるのではなく、仕事の重さに合わせてモデルを選ぶ——コスト設計と適材適所の判断は、能力が上がっても変わらず人間の仕事だ。実際の受託開発でも、この見極めが最終的な速さと安さに直結する。

開発者のデスク。ディスプレイに自動化ワークフローの管理画面が映り、複数のタスクが自律的に処理されている。手元にはキーボード、落ち着いたダークトーンの作業環境
重い一発仕事は上位モデル、量をこなす反復は中位モデル——Sonnet 5は"中位で回せる範囲"を広げる

07使う​前に、​知って​おきたい​こと

最後に、飛びつく前のチェックポイントを正直に挙げておく。良いニュースほど、条件と限界をセットで見たほうがいい。

  • 導入価格には期限がある:$2/$10は2026年8月31日まで。9月以降は$3/$15(前世代と同額)に戻る。コスト試算をするなら、通常価格でも成り立つ設計にしておくのが安全だ。
  • ベンチマークは"傾向"であって保証ではない:数値はモデル提供者の自己申告を含む。実利用での体感は用途で変わるので、自分のタスクで小さく試してから本採用するのが鉄則。
  • 最難関のコーディングはまだOpus:SWE-bench Proの差(63.2% vs 69.2%)が示すとおり、難度の高い一発実装は上位モデルに分がある。全部をSonnet 5に寄せず、要所は使い分ける。
  • モデルの切り替えは明示的に:APIのモデルIDは claude-sonnet-5。無料・Proでは標準モデルになったが、既存の連携やスクリプトでモデルを固定しているなら、切り替えは意図して行う。

とはいえ、総じて「Opusに迫る自律性を、中位の値段で回せる」という一点だけでも、日々AIで開発する側にとっては大きい。派手な新機能というより、"実務で毎日使う道具が、静かに一段強く・一段安くなった"タイプの更新だ。地味だが、こういう更新こそ効く。

最上位をフル投入するか、中位で賢く回すか。Sonnet 5が変えた選択を、一枚に。

観点Opus 4.8をフル投入Sonnet 5で回す(新)
位置づけ最上位・幅広く最高性能中位・"最も自律的なSonnet"
得意最難関の一発コーディング等長い自律ループ・道具操作・量の反復
Opusとの差基準多くの指標で肉薄/SWE-bench Proは一歩後ろ
出力単価$25 /100万tok$10(導入・〜8/31)→$15
文脈大きい100万トークン
向く使い方重い一発仕事・最終品質勝負日常自動化・エージェント常用・使い分けの主力

※ 本記事はAnthropic公式発表(2026-06-30)および各種技術メディアのまとめを、開発実務の観点から分かりやすく整理したもの。数値・事例はすべて公式・報道の引用であり、CAG自身の検証結果ではない。導入価格・提供状況・ベンチマークは変動しうるため、最新・正確な情報は必ず公式情報を参照のこと(v0・2026-07時点)。

脚注・出典

  1. Anthropic 公式発表「Introducing Claude Sonnet 5」(2026-06-30)。APIモデルID=claude-sonnet-5。無料・Proの標準モデルとなり、Max/Team/Enterprise、Claude Code、Claude API で利用可能。anthropic.com/news/claude-sonnet-5
  2. 本記事は外部発表の解説であり、CAGが開発・検証した制作事例ではない。能力・数値はすべて「公式発表・報道によれば」という前提で読まれたい。
  3. ZapierのDaniel Shepard氏のコメントとして、「以前は途中で止まっていた複雑な複数工程のタスクが最後まで完走するようになり、日常の自動化に使える」と報じられている。出典:TechCrunch「Anthropic launches Claude Sonnet 5 as a cheaper way to run agents」(2026-06-30)。techcrunch.com
  4. ベンチマーク数値(Sonnet 4.6 / Sonnet 5 / Opus 4.8):SWE-bench Pro=58.1 / 63.2 / 69.2、Terminal-Bench 2.1=67.0 / 80.4 / 非公表、OSWorld-Verified=78.5 / 81.2 / 非公表、Humanity's Last Exam(ツール使用時)=46.8 / 57.4 / 57.9、GDPval-AA v2=非公表 / 1,618 / 1,615。出典:Anthropic公式発表および MarkTechPost の比較まとめ(2026-06-30)。数値はモデル提供者の自己申告を含み、実利用での体感は用途により異なる。
  5. 価格(100万トークンあたり):Sonnet 5 導入価格=入力$2/出力$10(2026年8月31日まで)、通常価格=入力$3/出力$15。参考:Sonnet 4.6=$3/$15、Opus 4.8=$5/$25。公式・報道はSonnet 5をOpus 4.8・GPT-5.5・Gemini 3.1 Proより安い価格帯に位置づけている。出典:Anthropic公式料金、TechCrunch、VentureBeat(2026-06-30)。
  6. 公式発表によると、Sonnet 5は前世代比で望ましくない振る舞い・ハルシネーション・過剰な同調が減り、悪意ある要求の拒否とプロンプトインジェクション耐性が向上、サイバー安全装置が既定で有効。実際に動作する完全なソフトウェア脆弱性の生成を測る評価では0.0%と報告されている。コンテキストウィンドウは100万トークン。最新・正確な情報は公式情報を参照。

「新しい​モデル、​うちの​仕事に​どう​使い​分ければ​いい?」——​その​設計、​一緒に​考えます。

最新のAIを、安全に・適材適所で使いこなす。モデルの使い分けもコスト設計も、毎日Claudeで作っている現場目線で。まずは相談から——問い合わせは、AIがその場でお応えします。

無料で相談する →

言語化できるものは、全て作る。

あなたの「作りたい」を、定価とスピードで形に。まずは無料の相談から。

制作事例を見る