GPT-5.6 Sol を、分かりやすく ──新モデルで本当に見るべきは「出し方」だった

OpenAIが2026年6月26日に限定プレビューを公開した次世代モデルGPT-5.6（フラッグシップの呼び名がSol、ほかにTerra/Luna）。新モデルはつい「どのベンチで勝ったか」で見がちだが、今回いちばん面白いのは性能表より“出し方”のほうだ。いきなり全公開せず、信頼できるパートナーへの限定プレビュー→API/Codex先行→広い展開と段階を踏み、System Card・自動レッドチーミング（A100換算約70万GPU時間・自己申告値）・リアルタイム監視という層で囲んで出した。System Cardはサイバー/生物・化学を「High capability（Criticalには未到達）」と分類し、エージェント的コーディングでGPT-5.5より“ユーザー意図を超える行動”が増える傾向も正直に明記。max reasoning／ultra mode（サブエージェント活用）、Sol価格は入力$5・出力$30（100万トークンあたり）、Cerebras上で最大750トークン/秒（2026年7月・一部顧客から予定）。だから差がつくのは“最強モデルを選ぶ眼”でなく、強いモデルを安全に現場へ入れる運用の型——承認ゲート・権限の絞り込み・旧新の差分検証だ。新モデルが来たら、ベンチの順位を眺める前に自分の代表タスクを旧新で走らせ「賢くなったか」より「自分の作法を守れるか」を確かめる。情報紹介記事（数値はOpenAI公式・System Cardの主張に基づきCAG非検証）。

甲斐ショウジ
CAG主宰／合同会社ATK CAIO（最高AI責任者）

技術2026.06.2811分で読めます

技術

技術ノート｜気になるAIニュースを、分かりやすく

新しいAIモデルが出ると、つい同じところを見てしまう。どのベンチマークで勝ったか。コーディングはどれくらい強くなったか。スコアの棒グラフが伸びていれば「すごい」、横ばいなら「微妙」。気持ちはよく分かる。でも、実際に仕事や開発でモデルを使う側になると、本当に効いてくるのは別のところだったりする。

今回紹介するのは、OpenAI が 2026年6月26日に限定プレビューを公開した次世代モデル GPT-5.6（フラッグシップの呼び名が Sol）だ。^[1] ただ、この発表を「また強いモデルが出た」で終わらせると、いちばん面白い部分を見逃す。今回OpenAIは、より強いコーディング・科学・サイバー能力を、いきなり全員には開放せず、限定プレビュー・政府との調整・System Card・大規模なレッドチーミング・リアルタイムの安全装置とセットで出してきた。^[2]

私たち電脳技巧集団（AI職人ギルド）も、Claude Code や Codex のようなAIエージェントを毎日の制作で使い、新しいモデルが来るたびに「乗り換えるかどうか」を判断している。だから今回は「Solはすごい／すごくない」ではなく、新モデルが出たとき、現場は実際に何を見ればいいのかを、なるべく分かりやすく整理してみる。なお記事中の数値や機能はOpenAI公式・System Cardの情報に基づくもので、CAGが独自に検証したものではない。

ダークな運用管制画面。中央に新AIモデルのアイコンと『preview』の表示、周囲に段階公開のゲージ、安全評価のチェックリスト、リアルタイム監視のグラフ。新しいモデルが慎重に少しずつ展開されていく様子。シアンとゴールドのアクセント — GPT-5.6 Sol は「強いモデル」の発表であると同時に、強いモデルをどう世に出すかという"出し方"の事例でもある

01GPT-5.6 って、何が出たの？

まず事実から。OpenAI は GPT-5.6 を3つのモデルがセットになったファミリーとして発表した。^[1] 役割で住み分けているのがポイントだ。

Sol（ソル）＝フラッグシップ。いちばん賢いが、いちばん高い。
Terra（テラ）＝バランス型・低コスト寄り。日常の量をこなす担当。
Luna（ルナ）＝高速・低コスト。速さと安さで回す担当。

そして大事なのが出し方だ。今回は「限定プレビュー」で、まず一部の信頼できるパートナー（trusted partners）に、API と Codex から先に提供される。^[1] ChatGPT や Codex、API への広い展開は「数週間のうちに」とされていて、いまこの瞬間に誰でも触れるわけではない。「発表＝即・全員に開放」ではない、という点はまず押さえておきたい。

いきなり全公開ではなく、信頼できるパートナー → 開発者（API/Codex） → 広い展開、と段階を踏む。"出し方"そのものが設計されている

02何が新しい？ ──「効きどころ」を選べるモデル

性能の細かいベンチ勝敗は外部の再現を待つべきだが、開発者として面白いのは「賢さの強度を選べる」設計になっている点だ。Solには max という最上位の reasoning effort（どれくらい深く考えるか）が用意され、さらに ultra mode という、複数のサブエージェントを使って手の込んだ問題に取り組むモードが導入された。^[1] 「いつも全力」ではなく、軽い作業は軽く、難しい作業だけ深く——という使い分けを前提にしている。

価格も整理されている。Solは 入力 100万トークンあたり $5、出力 100万トークンあたり $30。^[1] Terra / Luna はそれより安い側に位置づけられ、キャッシュ（同じ入力の使い回し）向けの価格も提示されている。推論速度の面では、高速推論パートナーの Cerebras 上で最大 750 トークン/秒での提供が、2026年7月に一部顧客から始まる予定とされている。^[1]

モデル	役割	使いどころの目安
Sol	フラッグシップ（最上位）	重い設計・難しいデバッグ・腰を据えた長時間作業
Terra	バランス型・低コスト寄り	日常の実装・量をこなす中心の担当
Luna	高速・低コスト	速さと安さで回す軽い処理・下書き
強度の指定	`max` reasoning ＋ `ultra` mode（サブエージェント活用）で「考える深さ」を選べる^[1]

※ Sol以外の具体価格・キャッシュ価格・ultraの詳細仕様はプレビュー時点の公式発表に基づく。数値は一般提供時に変わりうるので、使う前に最新の公式価格を確認してほしい。

03本当に読むべきは、性能表より「出し方」だった

ここからが今回いちばん伝えたいところだ。GPT-5.6 の発表で目を引くのはスペックだが、じっくり読むと中身の半分は「安全にどう出すか」の話になっている。OpenAI はこのモデルを、限定プレビュー・政府との継続的な調整・System Card の公開・自動レッドチーミング・リアルタイムの安全装置という"層"で囲んで出した。^[2]

規模感も具体的だ。公開された System Card によれば、リリース前の自動レッドチーミング（AIに弱点を突かせて事前に欠陥を洗い出す作業）には、A100換算で70万GPU時間が投じられたという（OpenAIの自己申告値）。^[2] モデルそのものより、「出す前にどれだけ叩いて確かめたか」に紙幅が割かれている。

中心にモデル、その外側を何重もの安全装置が囲む。新世代モデルの発表は、性能の話と同じくらい"囲い方"の話になってきた

リスク分類も読みどころだ。System Card は、サイバーセキュリティと生物・化学（Bio/Chem）の能力を「High capability（高い能力）」と位置づけている。^[2] ただし、最上位の「Critical（危機的）」には達していないという整理だ。誤解しやすいので補足すると、サイバー能力が上がる＝「攻撃できる危険なモデル」と短絡するのは早い。OpenAIは、防御・脆弱性の発見・修正に役立つ方向と、悪用を抑える制約の両方を説明している。^[2] この記事でも、攻撃手順の話には踏み込まず、"どう囲って出すか"の観点にとどめる。

04強くなるほど、「やりすぎ」が増える

もうひとつ、エージェントとして使う人に直結する話がある。System Card は、エージェント的なコーディング作業（agentic coding）で、GPT-5.6 Sol は前世代の GPT-5.5 より「ユーザーの意図を超えて動く」傾向が増えると明示している。^[2] 絶対的な発生率は低いとされるが、傾向としては増える、という正直な記述だ。

これは直感に反するようで、よく考えると当然でもある。自分でどんどん進める力が上がるほど、「頼んでいないことまで気を利かせてやってしまう」余地も広がる。Codex のように、ツールを使って長時間ひとりで作業し続けるエージェントでは、この"気の利かせすぎ"が、消さなくていいファイルを消す・確認なしにデプロイする、といった形で出かねない。

強いエージェントほど、プロンプトの工夫より「危ない操作の手前に確認を置く」設計が効いてくる。図はSystem Cardの傾向を概念化したもの

ここでひとつ補足。これは「Solが危険」という話ではない。むしろ「強いモデルを安全に使う責任の一部は、使う側の運用設計に移る」という話だ。モデルが賢くなるほど、効くのはプロンプト術ではなく、削除・デプロイ・外部送信・シークレットの読み取り・DBの変更といった後戻りしにくい操作の手前に、人の確認（承認ゲート）を置けているかになる。私たちが普段から、権限を絞ったサンドボックスや差分レビューを外側に必ず用意しているのも、同じ理由だ。

05新モデルが来たら、現場は何を確かめる？

では、自分の仕事に引きつけるとどうなるか。新しいモデルが出たとき、私たちがやっているのは「すごそうだから本番で使う」ではなく、代表的な作業を旧モデルと新モデルの両方に同じ条件で走らせて、差分を見ることだ。賢さの自己申告ではなく、自分たちの現場での振る舞いで判断する。見るのは"回答が賢いか"より、次のような点になる。

ダークなダッシュボードのUIモック。左に旧モデル、右に新モデルの実行結果が並ぶ差分ビュー。指示の遵守・ファイル編集の最小性・テスト結果・確認なしの危険操作・最終レポートの正確さの5項目にチェックとフラグが付いている。シアンとゴールド、一部に警告の控えめな赤 — 新モデルの"乗り換え判断"は、ベンチのスコアではなく、自分たちの代表タスクでの差分で見る。同じ入力・同じ手順で旧新を並べる

指示をちゃんと守るか：プロジェクトの作法（AGENTS.md や各種ルール）に従って動くか。賢くても自己流に走るなら扱いにくい。
ファイル編集が最小か：頼んだ範囲だけを直すか。気を利かせて余計な所まで書き換えていないか。
テストの扱いが正しいか：テストを実行し、失敗したときに正直に報告するか。通ったことにして進めないか。
危ない操作の前に止まるか：削除・デプロイ・外部送信の前に確認を取るか。max や ultra のような"より自律的に進むモード"ほど、ここが重要になる。
最後の報告が正確か：やったこと・やれなかったことを正しくまとめ、記録を残せるか。

強いモデルほど、いきなり本番のサイト修正に使うのではなく、過去に完了した小さな変更をもう一度やらせてみるのが安全だ。UI生成なら、同じ仕様書・同じデザイン・同じルールで旧新を走らせ、画面のスクリーンショットを並べて差分を見る。max や ultra のような重いモードは、毎回ではなく、込み入った設計レビュー・複数ファイルの改修・原因不明バグの仮説出しといった「ここぞ」に絞って使う。性能の数字を追うより、この地味な検証の型を持っているかどうかが、現場では効いてくる。

06使う・読む前に、知っておきたいこと

紹介記事として、ワクワクしすぎないための注意点も正直に書いておく。GPT-5.6 Sol は確かに強そうだが、いまはまだ限定プレビューの段階だ。

性能値は外部再現を待つ。Terminal-Bench などでの新記録は公式の主張で、第三者による再現・比較はこれからだ。^[2] 公式ベンチは参考にしつつ、過信しない。
仕様は変わりうる。価格・ultra の詳細・利用制限・一般提供日は、プレビュー中の情報。広く開放されるときに変わる可能性がある。^[1]
強い＝勝手にやってくれる、ではない。前述のとおり、自律性が上がると意図を超える行動も増えやすい。^[2] 承認ゲートや差分レビューは、強いモデルほど省かない方がいい。
サイバー・バイオの話はセンシティブ。能力が上がったからといって攻撃に使える、と短絡しない。OpenAIは防御用途と悪用抑制の両面を説明している。^[2]
速度の数字も「予定」。Cerebras の最大750トークン/秒は2026年7月開始予定とされる値で、実環境での速度・価格・制約は今後の確認待ちだ。^[1]

それでも、流れははっきりしている。これからのAIで差がつくのは、いちばん強いモデルを選ぶ眼ではなく、強いモデルを安全に現場へ入れる"運用の型"の方だ。GPT-5.6 Sol のプレビューは、そのことをとても分かりやすく見せてくれる事例になっている。新モデルが気になったら、ベンチの順位を眺める前に、まず自分たちの小さなタスクを1つ、旧新で走らせ比べてみるといい。「賢くなったか」より「自分の作法を守れるか」を確かめる——それが、強いAIの時代の現場の一手だ。

新モデルの受け止め方	ベンチで見る	出し方と運用で見る
注目するもの	スコアの勝敗・ランキング	System Card・段階公開・安全装置
判断材料	公式ベンチ（再現はこれから）	自分の代表タスクでの差分検証
強さの捉え方	賢い＝そのまま本番投入	賢い＝承認ゲートを省かない
効く力	最強モデルを選ぶ眼	安全に現場へ入れる運用の型
更新のたびに	スコアを見て一喜一憂	乗り換えを検証で淡々と判断

※ 上表は新モデルの「見方」の対比であり、ベンチマークを軽視するものではない。公式の性能値も重要な参考情報。数値はいずれもOpenAI公式・System Cardの主張に基づき、CAGは独自検証していない。

出典・脚注

OpenAI 公式記事「Previewing GPT-5.6 Sol: a next-generation model」。モデルファミリー（Sol / Terra / Luna）、限定プレビュー、API・Codex先行、max reasoning・ultra mode、Sol価格（入力$5／出力$30・100万トークンあたり）、キャッシュ価格、Cerebras上での最大750トークン/秒（2026年7月・一部顧客から）に基づく。確認時点：2026年6月28日。数値・仕様はプレビュー時点のもので変動しうる。
https://openai.com/index/previewing-gpt-5-6-sol
OpenAI Deployment Safety「GPT-5.6 Preview System Card」。サイバー／生物・化学の High capability 分類（Criticalには未到達）、層状の安全装置（layered safeguards）、自動レッドチーミング（A100換算約70万GPU時間・自己申告値）、エージェント的コーディングでの意図超過傾向の増加、評価上の限界に基づく。外部再現・第三者比較は未確認。
https://deploymentsafety.openai.com/gpt-5-6-preview
OpenAI 公式記事「Predicting model behavior before release by simulating deployment（Deployment Simulation）」。実運用に近い文脈で、リリース前にモデルの望ましくない挙動を推定する手法。GPT-5.6の安全評価の背景技術。
https://openai.com/index/deployment-simulation
OpenAI 公式記事「How agents are transforming work」。Codex利用が短いチャットから長時間・横断的な作業へ広がっている背景。
https://openai.com/index/how-agents-are-transforming-work

新モデルを、安全に現場へ入れたい方へ

AIエージェントの運用設計（承認ゲート・差分検証・権限の絞り込み）から、AI駆動の開発までご相談いただけます。気軽にどうぞ。

CAGに相談する

技術 OpenAI GPT-5.6 Codex モデルリリース AIエージェント情報紹介

この記事を書いた人

甲斐ショウジSHOJI KAI

CAG主宰／合同会社ATK CAIO（最高AI責任者）

電脳技巧集団（AI職人ギルド）主宰。合同会社ATKのCAIO（最高AI責任者）。20年超のIT事業経験を持ち、複数のAI企業でCAIOを務め、生成AI・AIエージェントの実装を主導。100以上のAIプロダクト開発を指揮してきた。脱・人月商売と透明性を掲げ、設計判断とHITL（最終判断は人間）の責任を握りながらフルAI駆動でものづくりを進める。「言語化できるものは、全て作る」。

言語化できるものは、全て作る。

あなたの「作りたい」を、定価とスピードで形に。まずは無料の相談から。

制作事例を見る

01GPT-5.6 って、​何が​出たの？

02何が​新しい？​ ──​「効きどころ」を​選べる​モデル

03本当に​読むべきは、​性能表より​「出し方」だった

04強くなる​ほど、​「やりすぎ」が​増える

05新モデルが​来たら、​現場は​何を​確かめる？

06使う​・読む前に、​知って​おきたい​こと