AI開発の​主戦場は、​モデル比較から​「作業環境」へ​移った​ ──モデルは​脳、​harnessは​職場

AI開発の話題はいまも「GPTが強い」「Claudeが賢い」のモデル比較で盛り上がる。でも毎日AIにコードを書かせていると、差がつくのはそこだけではないと分かる。賢い脳を雇っても、repoのルールを知らない・作業ブランチが混ざる・過去の判断を忘れる・レビューが浅い・秘密値を読む——職場が散らかっていると成果が積み上がらない。2026年6月の更新を並べると、その職場のほうが動き出している:GitHub Desktop 3.6(worktree/AGENTS.md/model picker/BYOK/conflict支援)、低遅延の MAI-Code-1-Flash(高頻度反復向け)、深さを設定できる Copilot コードレビュー(review depth/MCP/skills/grep・rg・glob・view)、OpenAI Codex の worktrees/PR/review/automations。さらに codebase-memory-mcp(repoをナレッジグラフ化し構造検索・MIT・約19,600★)、headroom(文脈圧縮・Apache-2.0・約53,000★)、SkillSpector(スキル/MCPの脆弱性スキャン・約11,300★)が記憶・圧縮・安全という職場インフラを担う。CAGが受託で標準化している5点=worktree(机)/AGENTS.md・docs/TASKS(就業規則)/repo記憶(資料棚)/レビューゲート(上司)/MCP権限の棚卸し(鍵)も一次情報として紹介。結論は足し算でなく掛け算=強いモデル×整った作業環境。モデル比較だけ見ている人はAI開発の作業台を見落としている。数値は公式/GitHub上の主張でCAG非検証。

甲斐ショウジ甲斐ショウジ
CAG主宰/合同会社ATK CAIO(最高AI責任者)
技術12分で読めます
技術AI開発の主戦場は、モデル比較から「作業環境」へ移った ──モデルは脳、harnessは職場

技術ノート | AI駆動開発の現場から

AI開発の話題は、いまも「GPTが強い」「Claudeが賢い」「Copilotが便利」というモデル比較で盛り上がる。けれど毎日AIにコードを書かせていると、差がつく場所はそこだけではないと分かってくる。賢いモデルを入れても、repoのルールを知らない・作業ブランチが混ざる・過去の判断を忘れる・レビューが浅い・読ませてはいけない秘密値を読む。これでは、どれだけ優秀な"脳"を雇っても、職場が散らかっていて成果が積み上がらない。

2026年6月の更新を並べると、その「職場」のほうが動き出しているのが見える。GitHub Desktop 3.6、Copilot 向けの低遅延モデル MAI-Code-1-Flash、深さを設定できる Copilot コードレビュー、そして repo の記憶・文脈圧縮・スキル安全を担う周辺ツール群。AI開発の主戦場は、モデル単体から「AIが働く作業環境(harness)」へ広がっている[1]

この記事は、私たち電脳技巧集団(AI職人ギルド)が毎日 Claude Code や Codex を使って受託開発を回している現場の視点から、この流れを整理する。要点を先に言うと——モデルは脳、harness は職場。職場が弱いと、強い脳も仕事にならない。なお外部ツールの数値やスター数は確認時点(2026-06-29)のGitHub・公式情報に基づくもので、CAGが独自に検証したものではない。

ダークな開発作業環境。中央にAIの脳を表す発光ノード、周囲に分離された作業ブランチ(worktree)のタブ、ルールを書いたAGENTS.mdパネル、構造化されたコード記憶の索引、レビューゲートのチェック画面。脳が整った職場で働いている様子。シアンとゴールドのアクセント
強いモデル(脳)を、迷わず働ける作業環境(職場)に住まわせる。2026年のAI開発で差がつくのは、その設計のほうだ

01脳は​雇った。​でも​職場が​壊れている

現場の困りごとから始めたい。AIコーディングを本気で回すと、最初にぶつかるのは「モデルが賢いか」ではなく、同じ失敗が繰り返されることだ。原因をたどると、たいていモデルではなく作業環境にある。

強い脳でも、職場が壊れていると成果が積み上がらない モデル =脳 ルールを知らないrepo固有の作法が無い ブランチが混ざる並行作業が衝突 過去を忘れる判断の記憶が無い レビューが浅い重要変更も素通り 秘密値を読む権限が広すぎる
同じミスが繰り返される原因は、たいていモデルではなく「職場の壊れ」。ルール不在・ブランチ混在・記憶喪失・浅いレビュー・過剰な権限

面白いのは、これらが全部「モデルを別のものに替えても直らない」ことだ。GPTをClaudeにしても、repoのルールは伝わらないし、過去の判断は思い出せない。直すべきは脳ではなく、脳が働く環境のほう。そして2026年6月、まさにその環境が業界全体で更新され始めた。

02GitHubも​OpenAIも、​同じ方​向を​向いている

象徴的なのが GitHub Desktop 3.6 だ。これまで「Gitのクライアント」だったツールが、worktree(作業ブランチの分離)、AGENTS.md / copilot-instructions の参照、モデルピッカー、BYOK(自前のAPIキー持ち込み)、マージコンフリクト支援を同じGit作業面にまとめて入れてきた。[2] commitメッセージの生成も、repoの基準(AGENTS.md 等)に合わせる前提になっている。「AIをどこに置くか」ではなく「AIが働く作業台ごと作る」発想だ。

別々のプロダクトが、同じ「作業環境」へ収束している 作業環境harness GitHub Desktop 3.6worktree / AGENTS.md / model picker Copilot code reviewreview深度 / MCP / skills / file tools OpenAI Codexworktrees / PR / review / automations
GitHub Desktop・Copilotコードレビュー・OpenAI Codex。狙う製品は違うのに、更新の中身は「AIが働く作業環境を整える」方向に揃ってきた

Copilotのコードレビューも同じだ。レビューの「深さ(review depth)」を組織のデフォルトとして設定でき、MCPサーバー・スキル、さらに grep / rg / glob / view といったCLI由来のファイル探索ツールを使ってコードを読み込むようになった。[3] レビューもまた「作業環境の設定対象」になったわけだ。OpenAI Codex の更新履歴も、pull request ワークフロー・レビューコメント・変更ファイル表示・worktrees・AGENTS.md・automations と、同じく作業環境の要素を前に出している。[4]

03脳を​タスクで​分ける​ ──全部に​最強モデルは​要らない

もうひとつの変化が、モデルを役割で使い分ける動きだ。GitHubは Copilot Business / Enterprise 向けに MAI-Code-1-Flash を一般提供した。位置づけは明確で、低遅延・高頻度の agentic coding ワークフロー向け——つまり重い設計判断ではなく、軽くて回数の多い反復タスクを担うモデルだ。[5]

タスクの重さでモデルを振り分ける(router) 入ってくる仕事設計 / 修正 / 反復 / 調査 振分 強いモデル(max級)設計・抽象化・セキュリティ・難バグ 低遅延モデル(Flash級)高頻度・軽い反復・素早い下書き
重い判断は強いモデル、軽く回数の多い反復は低遅延モデルへ。Copilotレビューの「深さ」設定も同じ発想=重要変更だけ深く読む

これはコードレビューの「深さ」を変えられる話と地続きだ。軽微な変更は速く浅く、DB・認証・課金・RLSのような壊れると痛い変更は深く。脳もレビューも「常に最強・常に全力」ではなく、タスクの重さに合わせて強度を選ぶ。コストと速度を無駄にせず、肝心なところに重さを寄せる——これも立派な作業環境の設計だ。

04記憶・圧縮・安全 ──脳を​支える​"職場インフラ"

作業環境を支える周辺ツールも育っている。GitHub上で伸びている3つのrepoが分かりやすい(数値はいずれも確認時点のGitHub・README上の主張で、第三者再現やCAGの検証ではない)。

役割ツール(OSS)何を解決するか
記憶codebase-memory-mcp
MIT・約19,600★
repoをナレッジグラフ化し、agentが総当たりで読まず構造検索できるMCPサーバー[6]
圧縮headroom
Apache-2.0・約53,000★
ツール出力・ログ・履歴・ファイルを圧縮し、Claude / Codex 等を横断する文脈レイヤー[7]
安全SkillSpector
Apache-2.0・約11,300★
スキルやMCPの脆弱性・悪意あるパターンを導入前にスキャン(最小権限の発想)[8]

※ スター数・性能値は2026-06-29時点のGitHub/READMEの記載。話題性の目安であって品質保証ではない(ライセンス・更新頻度・セキュリティを別途確認すべき)。codebase-memory-mcp の「トークン大幅削減」等の数値もREADME上の主張で、第三者再現は未確認。

並べると役割分担が見えてくる。記憶はrepoの構造を覚え、毎回全文を読ませない。圧縮は長いログやツール出力を要点に畳んで文脈を節約する。安全はスキルやMCPを増やすほど広がる攻撃面を、入れる前に点検する。どれも「モデルの賢さ」とは別の、職場の設備だ。脳が優秀でも、机が無く・記憶が無く・施錠も無い職場では、まともに働けない。

MCPは権限レイヤーだ、の記事サムネイル 関連記事 | スキル/MCPを増やす前に読む"安全"の話MCPは便利な拡張機能ではなく、権限レイヤーだ

05CAGの​作業台 ──​私たちが標準化している​こと

ここからは現場の一次情報だ。私たちは受託開発でClaude CodeやCodexを毎日使うが、案件の品質を決めているのは「どのモデルを選ぶか」より、どのrepoでも同じ"作業台"を最初に組むことだと感じている。長く触るrepo(GMJ系・CAG・マルチテナント基盤など)では、次の5点を標準化している。

ダークな開発作業台のUIモック。左にworktreeで分離された複数の作業ブランチのタブ、中央にAGENTS.mdのルールとdocs/TASKSのチェックリスト、右に構造化されたコード記憶の索引とレビューゲート(軽微は高速・重要は深く)、下にMCP権限の棚卸し表。シアンとゴールド
どのrepoでも最初に同じ作業台を組む。worktree=机、AGENTS.md=就業規則、記憶=資料棚、レビューゲート=上司、MCP棚卸し=鍵の管理
  • worktree(机を分ける):作業単位ごとにブランチを物理的に分離し、agentの並行作業が混ざらないようにする。1つの机で複数の仕事を広げない。
  • AGENTS.md / docs/TASKS.md(就業規則):repo固有のルール・禁止事項・検証コマンド・「人が承認すべき境界」を明文化する。新しい脳が来ても作法が伝わる。
  • repoの記憶(資料棚):構造検索できる索引を用意し、毎回コードを総当たりで読ませない。文脈を節約し、調査を速くする。
  • レビューゲート(上司):軽微な変更は速く、DB・RLS・認証・課金・外部送信のような壊れると痛い変更は深くレビューする。重さを使い分ける。
  • MCP・権限の棚卸し(鍵の管理):agentが触れる範囲を最小に絞り、削除・デプロイ・外部送信・秘密値の読み取りは承認ゲートの内側に置く。

この5点は、どれも特定のモデルに依存しない。だからモデルが新しくなっても作り直す必要がなく、むしろ新モデルの差分検証がやりやすくなる。「最強モデルが来た」ときに慌てて飛びつくのではなく、整った作業台で旧モデルと並べて走らせ、自分たちの作法を守れるかを確かめる。脳を替える前に、職場が整っているか。これがCAGの順番だ。

最強モデルより強いharness、の記事サムネイル 関連記事 | なぜ"最強モデル選び"だけでは足りないか「最強モデル」より「強いharness」── frontier AIが"政策で止まる"時代のエージェント設計

06とは​いえ ──「職場さえ​整えれば」も​誇張だ

誤解されないように、反対側も正直に書く。「モデル比較は終わった」「repo indexを入れれば全部解決」と言うのは、どちらも言い過ぎだ。差がつく軸が増えただけで、モデル性能が要らなくなったわけではない。

  • モデル性能はまだ重要。設計・抽象化・セキュリティ判断・未知のバグ調査では、強いモデルがはっきり効く。職場を整えたうえで、肝心な仕事には強い脳を使う。
  • 記憶は古くなる。間違った記憶・古いindexは、agentを自信たっぷりに誤誘導する。記憶は「正」ではなく「補助」で、元の文書へ戻れる設計を残す。
  • 圧縮は情報を落とす。長いログを畳むのは便利だが、DB/RLS/セキュリティの微妙な差分を落とすことがある。重要判断では原文に戻れるようにする。
  • worktreeは万能ではない。机は分けられても、DBマイグレーション・環境変数・Vercel/Supabaseのような共有された外部状態は分離されない。ここは別の注意が要る。
  • スキル・MCPは増えるほど危ない。便利さと攻撃面はセットで増える。導入前スキャンと最小権限を前提にする。

だから結論は足し算ではなく掛け算だ。強いモデル × 整った作業環境。どちらかがゼロなら成果もゼロに近づく。モデル比較だけを見ている人は、AI開発の作業台を見落としている。逆に、worktree・AGENTS.md・記憶・レビューゲート・権限の棚卸しを整えた人は、どのモデルが来ても淡々と成果を出せる。次に差がつくのは、脳の銘柄ではなく職場の設計のほうだ。

AI開発の見方モデル比較だけモデル × 作業環境(harness)
問いどれが賢いかどの職場で働かせるか
repoの作法毎回モデル任せAGENTS.mdで明文化・継承
並行作業ブランチが混ざるworktreeで机を分ける
過去の判断毎回忘れる記憶(索引)で構造検索
レビュー一律・浅い重さで深さを使い分け
新モデル対応来るたび作り直し同じ作業台で差分検証

※ 上表は「見方」の対比であり、モデル性能を軽視するものではない。差がつくのは「モデル性能 + 作業環境」の掛け算。外部ツールの数値は公式/GitHub上の主張でCAG非検証。

出典・脚注

  1. 本記事の主張「主戦場がモデル比較から作業環境比較へ広がっている」は、下記の複数更新が示す方向性に基づくKai(CAG)の観察・解釈。定量的な市場データではない。素材=kai_wiki deep dive「AI開発の主戦場はモデル比較から作業環境比較へ移った」(2026-06-29・fact-check済)。
  2. GitHub Changelog「GitHub Desktop 3.6 — worktrees and deeper Copilot integration」(2026-06-26)。worktree対応、Copilotによるcommit authoring、merge conflict支援、model picker、BYOK、AGENTS.md / copilot-instructions 参照。
    https://github.blog/changelog/2026-06-26-github-desktop-3-6-worktrees-and-deeper-copilot-integration/
  3. GitHub Changelog「Copilot code review: analysis depth and efficiency updates」(2026-06-25)/「Shape Copilot code review around your team」(2026-06-02)。review depth、MCP servers、agent skills、grep/rg/glob/view 等のfile探索ツール、組織デフォルト設定。
    https://github.blog/changelog/2026-06-25-copilot-code-review-analysis-depth-and-efficiency-updates/
  4. OpenAI Codex Changelog。pull request ワークフロー、レビューコメント、変更ファイル、artifact viewer、automations、worktrees、AGENTS.md 等の作業環境要素。
    https://developers.openai.com/codex/changelog
  5. GitHub Changelog「MAI-Code-1-Flash for Copilot Business and Copilot Enterprise」(2026-06-26)。低遅延・高頻度の agentic coding ワークフロー向けとして一般提供。plan adminによるpolicy有効化が必要。
    https://github.blog/changelog/2026-06-26-mai-code-1-flash-for-copilot-business-and-copilot-enterprise/
  6. codebase-memory-mcp(DeusData・GitHub)。repoをナレッジグラフ化し構造検索できるMCPサーバー。MIT。確認時点(2026-06-29)約19,600★。性能値(トークン削減等)はREADME上の主張で第三者再現は未確認。
    https://github.com/DeusData/codebase-memory-mcp
  7. headroom(headroomlabs-ai・GitHub)。ツール出力・ログ・ファイル・履歴を圧縮し、cross-agentの文脈レイヤー/MCPを提供。Apache-2.0。確認時点 約53,000★。
    https://github.com/headroomlabs-ai/headroom
  8. SkillSpector(NVIDIA・GitHub)。AI agent skillsの脆弱性・悪意あるパターン・MCP最小権限などを検出するスキャナー。Apache-2.0。確認時点 約11,300★。
    https://github.com/NVIDIA/SkillSpector

AIが​迷わず働ける​"作業環境"を、​一緒に​整えませんか

AGENTS.md・worktree運用・repo記憶・レビューゲート・MCP権限設計まで、AI駆動開発の土台づくりをご相談いただけます。気軽にどうぞ。

CAGに相談する

言語化できるものは、全て作る。

あなたの「作りたい」を、定価とスピードで形に。まずは無料の相談から。

制作事例を見る