技術ノート | 気になるAIニュースを、分かりやすく
新しいAIモデルが出ると、つい同じところを見てしまう。どのベンチマークで勝ったか。コーディングはどれくらい強くなったか。スコアの棒グラフが伸びていれば「すごい」、横ばいなら「微妙」。気持ちはよく分かる。でも、実際に仕事や開発でモデルを使う側になると、本当に効いてくるのは別のところだったりする。
今回紹介するのは、OpenAI が 2026年6月26日に限定プレビューを公開した次世代モデル GPT-5.6(フラッグシップの呼び名が Sol)だ。[1] ただ、この発表を「また強いモデルが出た」で終わらせると、いちばん面白い部分を見逃す。今回OpenAIは、より強いコーディング・科学・サイバー能力を、いきなり全員には開放せず、限定プレビュー・政府との調整・System Card・大規模なレッドチーミング・リアルタイムの安全装置とセットで出してきた。[2]
私たち電脳技巧集団(AI職人ギルド)も、Claude Code や Codex のようなAIエージェントを毎日の制作で使い、新しいモデルが来るたびに「乗り換えるかどうか」を判断している。だから今回は「Solはすごい/すごくない」ではなく、新モデルが出たとき、現場は実際に何を見ればいいのかを、なるべく分かりやすく整理してみる。なお記事中の数値や機能はOpenAI公式・System Cardの情報に基づくもので、CAGが独自に検証したものではない。

01GPT-5.6 って、何が出たの?
まず事実から。OpenAI は GPT-5.6 を3つのモデルがセットになったファミリーとして発表した。[1] 役割で住み分けているのがポイントだ。
- Sol(ソル)=フラッグシップ。いちばん賢いが、いちばん高い。
- Terra(テラ)=バランス型・低コスト寄り。日常の量をこなす担当。
- Luna(ルナ)=高速・低コスト。速さと安さで回す担当。
そして大事なのが出し方だ。今回は「限定プレビュー」で、まず一部の信頼できるパートナー(trusted partners)に、API と Codex から先に提供される。[1] ChatGPT や Codex、API への広い展開は「数週間のうちに」とされていて、いまこの瞬間に誰でも触れるわけではない。「発表=即・全員に開放」ではない、という点はまず押さえておきたい。
02何が新しい? ──「効きどころ」を選べるモデル
性能の細かいベンチ勝敗は外部の再現を待つべきだが、開発者として面白いのは「賢さの強度を選べる」設計になっている点だ。Solには max という最上位の reasoning effort(どれくらい深く考えるか)が用意され、さらに ultra mode という、複数のサブエージェントを使って手の込んだ問題に取り組むモードが導入された。[1] 「いつも全力」ではなく、軽い作業は軽く、難しい作業だけ深く——という使い分けを前提にしている。
価格も整理されている。Solは 入力 100万トークンあたり $5、出力 100万トークンあたり $30。[1] Terra / Luna はそれより安い側に位置づけられ、キャッシュ(同じ入力の使い回し)向けの価格も提示されている。推論速度の面では、高速推論パートナーの Cerebras 上で最大 750 トークン/秒での提供が、2026年7月に一部顧客から始まる予定とされている。[1]
| モデル | 役割 | 使いどころの目安 |
|---|---|---|
| Sol | フラッグシップ(最上位) | 重い設計・難しいデバッグ・腰を据えた長時間作業 |
| Terra | バランス型・低コスト寄り | 日常の実装・量をこなす中心の担当 |
| Luna | 高速・低コスト | 速さと安さで回す軽い処理・下書き |
| 強度の指定 | max reasoning + ultra mode(サブエージェント活用)で「考える深さ」を選べる[1] | |
※ Sol以外の具体価格・キャッシュ価格・ultraの詳細仕様はプレビュー時点の公式発表に基づく。数値は一般提供時に変わりうるので、使う前に最新の公式価格を確認してほしい。
03本当に読むべきは、性能表より「出し方」だった
ここからが今回いちばん伝えたいところだ。GPT-5.6 の発表で目を引くのはスペックだが、じっくり読むと中身の半分は「安全にどう出すか」の話になっている。OpenAI はこのモデルを、限定プレビュー・政府との継続的な調整・System Card の公開・自動レッドチーミング・リアルタイムの安全装置という"層"で囲んで出した。[2]
規模感も具体的だ。公開された System Card によれば、リリース前の自動レッドチーミング(AIに弱点を突かせて事前に欠陥を洗い出す作業)には、A100換算で70万GPU時間が投じられたという(OpenAIの自己申告値)。[2] モデルそのものより、「出す前にどれだけ叩いて確かめたか」に紙幅が割かれている。
リスク分類も読みどころだ。System Card は、サイバーセキュリティと生物・化学(Bio/Chem)の能力を「High capability(高い能力)」と位置づけている。[2] ただし、最上位の「Critical(危機的)」には達していないという整理だ。誤解しやすいので補足すると、サイバー能力が上がる=「攻撃できる危険なモデル」と短絡するのは早い。OpenAIは、防御・脆弱性の発見・修正に役立つ方向と、悪用を抑える制約の両方を説明している。[2] この記事でも、攻撃手順の話には踏み込まず、"どう囲って出すか"の観点にとどめる。
04強くなるほど、「やりすぎ」が増える
もうひとつ、エージェントとして使う人に直結する話がある。System Card は、エージェント的なコーディング作業(agentic coding)で、GPT-5.6 Sol は前世代の GPT-5.5 より「ユーザーの意図を超えて動く」傾向が増えると明示している。[2] 絶対的な発生率は低いとされるが、傾向としては増える、という正直な記述だ。
これは直感に反するようで、よく考えると当然でもある。自分でどんどん進める力が上がるほど、「頼んでいないことまで気を利かせてやってしまう」余地も広がる。Codex のように、ツールを使って長時間ひとりで作業し続けるエージェントでは、この"気の利かせすぎ"が、消さなくていいファイルを消す・確認なしにデプロイする、といった形で出かねない。
ここでひとつ補足。これは「Solが危険」という話ではない。むしろ「強いモデルを安全に使う責任の一部は、使う側の運用設計に移る」という話だ。モデルが賢くなるほど、効くのはプロンプト術ではなく、削除・デプロイ・外部送信・シークレットの読み取り・DBの変更といった後戻りしにくい操作の手前に、人の確認(承認ゲート)を置けているかになる。私たちが普段から、権限を絞ったサンドボックスや差分レビューを外側に必ず用意しているのも、同じ理由だ。
関連記事 | 強いエージェントに必要な"権限"の考え方MCPは便利な拡張機能ではなく、権限レイヤーだ
→
05新モデルが来たら、現場は何を確かめる?
では、自分の仕事に引きつけるとどうなるか。新しいモデルが出たとき、私たちがやっているのは「すごそうだから本番で使う」ではなく、代表的な作業を旧モデルと新モデルの両方に同じ条件で走らせて、差分を見ることだ。賢さの自己申告ではなく、自分たちの現場での振る舞いで判断する。見るのは"回答が賢いか"より、次のような点になる。

- 指示をちゃんと守るか:プロジェクトの作法(
AGENTS.mdや各種ルール)に従って動くか。賢くても自己流に走るなら扱いにくい。 - ファイル編集が最小か:頼んだ範囲だけを直すか。気を利かせて余計な所まで書き換えていないか。
- テストの扱いが正しいか:テストを実行し、失敗したときに正直に報告するか。通ったことにして進めないか。
- 危ない操作の前に止まるか:削除・デプロイ・外部送信の前に確認を取るか。
maxやultraのような"より自律的に進むモード"ほど、ここが重要になる。 - 最後の報告が正確か:やったこと・やれなかったことを正しくまとめ、記録を残せるか。
強いモデルほど、いきなり本番のサイト修正に使うのではなく、過去に完了した小さな変更をもう一度やらせてみるのが安全だ。UI生成なら、同じ仕様書・同じデザイン・同じルールで旧新を走らせ、画面のスクリーンショットを並べて差分を見る。max や ultra のような重いモードは、毎回ではなく、込み入った設計レビュー・複数ファイルの改修・原因不明バグの仮説出しといった「ここぞ」に絞って使う。性能の数字を追うより、この地味な検証の型を持っているかどうかが、現場では効いてくる。
関連記事 | "いちばん強いモデル"より大事なもの最強のモデルを選ぶより、検証ハーネスを持つ方が効く
→
06使う・読む前に、知っておきたいこと
紹介記事として、ワクワクしすぎないための注意点も正直に書いておく。GPT-5.6 Sol は確かに強そうだが、いまはまだ限定プレビューの段階だ。
- 性能値は外部再現を待つ。Terminal-Bench などでの新記録は公式の主張で、第三者による再現・比較はこれからだ。[2] 公式ベンチは参考にしつつ、過信しない。
- 仕様は変わりうる。価格・
ultraの詳細・利用制限・一般提供日は、プレビュー中の情報。広く開放されるときに変わる可能性がある。[1] - 強い=勝手にやってくれる、ではない。前述のとおり、自律性が上がると意図を超える行動も増えやすい。[2] 承認ゲートや差分レビューは、強いモデルほど省かない方がいい。
- サイバー・バイオの話はセンシティブ。能力が上がったからといって攻撃に使える、と短絡しない。OpenAIは防御用途と悪用抑制の両面を説明している。[2]
- 速度の数字も「予定」。Cerebras の最大750トークン/秒は2026年7月開始予定とされる値で、実環境での速度・価格・制約は今後の確認待ちだ。[1]
それでも、流れははっきりしている。これからのAIで差がつくのは、いちばん強いモデルを選ぶ眼ではなく、強いモデルを安全に現場へ入れる"運用の型"の方だ。GPT-5.6 Sol のプレビューは、そのことをとても分かりやすく見せてくれる事例になっている。新モデルが気になったら、ベンチの順位を眺める前に、まず自分たちの小さなタスクを1つ、旧新で走らせ比べてみるといい。「賢くなったか」より「自分の作法を守れるか」を確かめる——それが、強いAIの時代の現場の一手だ。
| 新モデルの受け止め方 | ベンチで見る | 出し方と運用で見る |
|---|---|---|
| 注目するもの | スコアの勝敗・ランキング | System Card・段階公開・安全装置 |
| 判断材料 | 公式ベンチ(再現はこれから) | 自分の代表タスクでの差分検証 |
| 強さの捉え方 | 賢い=そのまま本番投入 | 賢い=承認ゲートを省かない |
| 効く力 | 最強モデルを選ぶ眼 | 安全に現場へ入れる運用の型 |
| 更新のたびに | スコアを見て一喜一憂 | 乗り換えを検証で淡々と判断 |
※ 上表は新モデルの「見方」の対比であり、ベンチマークを軽視するものではない。公式の性能値も重要な参考情報。数値はいずれもOpenAI公式・System Cardの主張に基づき、CAGは独自検証していない。
出典・脚注
- OpenAI 公式記事「Previewing GPT-5.6 Sol: a next-generation model」。モデルファミリー(Sol / Terra / Luna)、限定プレビュー、API・Codex先行、
maxreasoning・ultramode、Sol価格(入力$5/出力$30・100万トークンあたり)、キャッシュ価格、Cerebras上での最大750トークン/秒(2026年7月・一部顧客から)に基づく。確認時点:2026年6月28日。数値・仕様はプレビュー時点のもので変動しうる。
https://openai.com/index/previewing-gpt-5-6-sol - OpenAI Deployment Safety「GPT-5.6 Preview System Card」。サイバー/生物・化学の High capability 分類(Criticalには未到達)、層状の安全装置(layered safeguards)、自動レッドチーミング(A100換算 約70万GPU時間・自己申告値)、エージェント的コーディングでの意図超過傾向の増加、評価上の限界に基づく。外部再現・第三者比較は未確認。
https://deploymentsafety.openai.com/gpt-5-6-preview - OpenAI 公式記事「Predicting model behavior before release by simulating deployment(Deployment Simulation)」。実運用に近い文脈で、リリース前にモデルの望ましくない挙動を推定する手法。GPT-5.6の安全評価の背景技術。
https://openai.com/index/deployment-simulation - OpenAI 公式記事「How agents are transforming work」。Codex利用が短いチャットから長時間・横断的な作業へ広がっている背景。
https://openai.com/index/how-agents-are-transforming-work









