AI開発の主戦場は、モデル比較から「作業環境」へ移った ──モデルは脳、harnessは職場

AI開発の話題はいまも「GPTが強い」「Claudeが賢い」のモデル比較で盛り上がる。でも毎日AIにコードを書かせていると、差がつくのはそこだけではないと分かる。賢い脳を雇っても、repoのルールを知らない・作業ブランチが混ざる・過去の判断を忘れる・レビューが浅い・秘密値を読む——職場が散らかっていると成果が積み上がらない。2026年6月の更新を並べると、その職場のほうが動き出している：GitHub Desktop 3.6（worktree/AGENTS.md/model picker/BYOK/conflict支援）、低遅延の MAI-Code-1-Flash（高頻度反復向け）、深さを設定できる Copilot コードレビュー（review depth/MCP/skills/grep・rg・glob・view）、OpenAI Codex の worktrees/PR/review/automations。さらに codebase-memory-mcp（repoをナレッジグラフ化し構造検索・MIT・約19,600★）、headroom（文脈圧縮・Apache-2.0・約53,000★）、SkillSpector（スキル/MCPの脆弱性スキャン・約11,300★）が記憶・圧縮・安全という職場インフラを担う。CAGが受託で標準化している5点＝worktree（机）/AGENTS.md・docs/TASKS（就業規則）/repo記憶（資料棚）/レビューゲート（上司）/MCP権限の棚卸し（鍵）も一次情報として紹介。結論は足し算でなく掛け算＝強いモデル×整った作業環境。モデル比較だけ見ている人はAI開発の作業台を見落としている。数値は公式/GitHub上の主張でCAG非検証。

甲斐ショウジ
CAG主宰／合同会社ATK CAIO（最高AI責任者）

技術2026.06.2912分で読めます

技術

技術ノート｜ AI駆動開発の現場から

AI開発の話題は、いまも「GPTが強い」「Claudeが賢い」「Copilotが便利」というモデル比較で盛り上がる。けれど毎日AIにコードを書かせていると、差がつく場所はそこだけではないと分かってくる。賢いモデルを入れても、repoのルールを知らない・作業ブランチが混ざる・過去の判断を忘れる・レビューが浅い・読ませてはいけない秘密値を読む。これでは、どれだけ優秀な"脳"を雇っても、職場が散らかっていて成果が積み上がらない。

2026年6月の更新を並べると、その「職場」のほうが動き出しているのが見える。GitHub Desktop 3.6、Copilot 向けの低遅延モデル MAI-Code-1-Flash、深さを設定できる Copilot コードレビュー、そして repo の記憶・文脈圧縮・スキル安全を担う周辺ツール群。AI開発の主戦場は、モデル単体から「AIが働く作業環境（harness）」へ広がっている。^[1]

この記事は、私たち電脳技巧集団（AI職人ギルド）が毎日 Claude Code や Codex を使って受託開発を回している現場の視点から、この流れを整理する。要点を先に言うと——モデルは脳、harness は職場。職場が弱いと、強い脳も仕事にならない。なお外部ツールの数値やスター数は確認時点（2026-06-29）のGitHub・公式情報に基づくもので、CAGが独自に検証したものではない。

ダークな開発作業環境。中央にAIの脳を表す発光ノード、周囲に分離された作業ブランチ（worktree）のタブ、ルールを書いたAGENTS.mdパネル、構造化されたコード記憶の索引、レビューゲートのチェック画面。脳が整った職場で働いている様子。シアンとゴールドのアクセント — 強いモデル（脳）を、迷わず働ける作業環境（職場）に住まわせる。2026年のAI開発で差がつくのは、その設計のほうだ

01脳は雇った。でも職場が壊れている

現場の困りごとから始めたい。AIコーディングを本気で回すと、最初にぶつかるのは「モデルが賢いか」ではなく、同じ失敗が繰り返されることだ。原因をたどると、たいていモデルではなく作業環境にある。

同じミスが繰り返される原因は、たいていモデルではなく「職場の壊れ」。ルール不在・ブランチ混在・記憶喪失・浅いレビュー・過剰な権限

面白いのは、これらが全部「モデルを別のものに替えても直らない」ことだ。GPTをClaudeにしても、repoのルールは伝わらないし、過去の判断は思い出せない。直すべきは脳ではなく、脳が働く環境のほう。そして2026年6月、まさにその環境が業界全体で更新され始めた。

02GitHubもOpenAIも、同じ方向を向いている

象徴的なのが GitHub Desktop 3.6 だ。これまで「Gitのクライアント」だったツールが、worktree（作業ブランチの分離）、AGENTS.md / copilot-instructions の参照、モデルピッカー、BYOK（自前のAPIキー持ち込み）、マージコンフリクト支援を同じGit作業面にまとめて入れてきた。^[2] commitメッセージの生成も、repoの基準（AGENTS.md 等）に合わせる前提になっている。「AIをどこに置くか」ではなく「AIが働く作業台ごと作る」発想だ。

GitHub Desktop・Copilotコードレビュー・OpenAI Codex。狙う製品は違うのに、更新の中身は「AIが働く作業環境を整える」方向に揃ってきた

Copilotのコードレビューも同じだ。レビューの「深さ（review depth）」を組織のデフォルトとして設定でき、MCPサーバー・スキル、さらに grep / rg / glob / view といったCLI由来のファイル探索ツールを使ってコードを読み込むようになった。^[3] レビューもまた「作業環境の設定対象」になったわけだ。OpenAI Codex の更新履歴も、pull request ワークフロー・レビューコメント・変更ファイル表示・worktrees・AGENTS.md・automations と、同じく作業環境の要素を前に出している。^[4]

03脳をタスクで分ける ──全部に最強モデルは要らない

もうひとつの変化が、モデルを役割で使い分ける動きだ。GitHubは Copilot Business / Enterprise 向けに MAI-Code-1-Flash を一般提供した。位置づけは明確で、低遅延・高頻度の agentic coding ワークフロー向け——つまり重い設計判断ではなく、軽くて回数の多い反復タスクを担うモデルだ。^[5]

重い判断は強いモデル、軽く回数の多い反復は低遅延モデルへ。Copilotレビューの「深さ」設定も同じ発想＝重要変更だけ深く読む

これはコードレビューの「深さ」を変えられる話と地続きだ。軽微な変更は速く浅く、DB・認証・課金・RLSのような壊れると痛い変更は深く。脳もレビューも「常に最強・常に全力」ではなく、タスクの重さに合わせて強度を選ぶ。コストと速度を無駄にせず、肝心なところに重さを寄せる——これも立派な作業環境の設計だ。

04記憶・圧縮・安全 ──脳を支える"職場インフラ"

作業環境を支える周辺ツールも育っている。GitHub上で伸びている3つのrepoが分かりやすい（数値はいずれも確認時点のGitHub・README上の主張で、第三者再現やCAGの検証ではない）。

役割	ツール（OSS）	何を解決するか
記憶	codebase-memory-mcp MIT・約19,600★	repoをナレッジグラフ化し、agentが総当たりで読まず構造検索できるMCPサーバー^[6]
圧縮	headroom Apache-2.0・約53,000★	ツール出力・ログ・履歴・ファイルを圧縮し、Claude / Codex 等を横断する文脈レイヤー^[7]
安全	SkillSpector Apache-2.0・約11,300★	スキルやMCPの脆弱性・悪意あるパターンを導入前にスキャン（最小権限の発想）^[8]

※ スター数・性能値は2026-06-29時点のGitHub/READMEの記載。話題性の目安であって品質保証ではない（ライセンス・更新頻度・セキュリティを別途確認すべき）。codebase-memory-mcp の「トークン大幅削減」等の数値もREADME上の主張で、第三者再現は未確認。

並べると役割分担が見えてくる。記憶はrepoの構造を覚え、毎回全文を読ませない。圧縮は長いログやツール出力を要点に畳んで文脈を節約する。安全はスキルやMCPを増やすほど広がる攻撃面を、入れる前に点検する。どれも「モデルの賢さ」とは別の、職場の設備だ。脳が優秀でも、机が無く・記憶が無く・施錠も無い職場では、まともに働けない。

05CAGの作業台 ──私たちが標準化していること

ここからは現場の一次情報だ。私たちは受託開発でClaude CodeやCodexを毎日使うが、案件の品質を決めているのは「どのモデルを選ぶか」より、どのrepoでも同じ"作業台"を最初に組むことだと感じている。長く触るrepo（GMJ系・CAG・マルチテナント基盤など）では、次の5点を標準化している。

ダークな開発作業台のUIモック。左にworktreeで分離された複数の作業ブランチのタブ、中央にAGENTS.mdのルールとdocs/TASKSのチェックリスト、右に構造化されたコード記憶の索引とレビューゲート（軽微は高速・重要は深く）、下にMCP権限の棚卸し表。シアンとゴールド — どのrepoでも最初に同じ作業台を組む。worktree＝机、AGENTS.md＝就業規則、記憶＝資料棚、レビューゲート＝上司、MCP棚卸し＝鍵の管理

worktree（机を分ける）：作業単位ごとにブランチを物理的に分離し、agentの並行作業が混ざらないようにする。1つの机で複数の仕事を広げない。
AGENTS.md / docs/TASKS.md（就業規則）：repo固有のルール・禁止事項・検証コマンド・「人が承認すべき境界」を明文化する。新しい脳が来ても作法が伝わる。
repoの記憶（資料棚）：構造検索できる索引を用意し、毎回コードを総当たりで読ませない。文脈を節約し、調査を速くする。
レビューゲート（上司）：軽微な変更は速く、DB・RLS・認証・課金・外部送信のような壊れると痛い変更は深くレビューする。重さを使い分ける。
MCP・権限の棚卸し（鍵の管理）：agentが触れる範囲を最小に絞り、削除・デプロイ・外部送信・秘密値の読み取りは承認ゲートの内側に置く。

この5点は、どれも特定のモデルに依存しない。だからモデルが新しくなっても作り直す必要がなく、むしろ新モデルの差分検証がやりやすくなる。「最強モデルが来た」ときに慌てて飛びつくのではなく、整った作業台で旧モデルと並べて走らせ、自分たちの作法を守れるかを確かめる。脳を替える前に、職場が整っているか。これがCAGの順番だ。

06とはいえ ──「職場さえ整えれば」も誇張だ

誤解されないように、反対側も正直に書く。「モデル比較は終わった」「repo indexを入れれば全部解決」と言うのは、どちらも言い過ぎだ。差がつく軸が増えただけで、モデル性能が要らなくなったわけではない。

モデル性能はまだ重要。設計・抽象化・セキュリティ判断・未知のバグ調査では、強いモデルがはっきり効く。職場を整えたうえで、肝心な仕事には強い脳を使う。
記憶は古くなる。間違った記憶・古いindexは、agentを自信たっぷりに誤誘導する。記憶は「正」ではなく「補助」で、元の文書へ戻れる設計を残す。
圧縮は情報を落とす。長いログを畳むのは便利だが、DB/RLS/セキュリティの微妙な差分を落とすことがある。重要判断では原文に戻れるようにする。
worktreeは万能ではない。机は分けられても、DBマイグレーション・環境変数・Vercel/Supabaseのような共有された外部状態は分離されない。ここは別の注意が要る。
スキル・MCPは増えるほど危ない。便利さと攻撃面はセットで増える。導入前スキャンと最小権限を前提にする。

だから結論は足し算ではなく掛け算だ。強いモデル × 整った作業環境。どちらかがゼロなら成果もゼロに近づく。モデル比較だけを見ている人は、AI開発の作業台を見落としている。逆に、worktree・AGENTS.md・記憶・レビューゲート・権限の棚卸しを整えた人は、どのモデルが来ても淡々と成果を出せる。次に差がつくのは、脳の銘柄ではなく職場の設計のほうだ。

AI開発の見方	モデル比較だけ	モデル × 作業環境（harness）
問い	どれが賢いか	どの職場で働かせるか
repoの作法	毎回モデル任せ	AGENTS.mdで明文化・継承
並行作業	ブランチが混ざる	worktreeで机を分ける
過去の判断	毎回忘れる	記憶（索引）で構造検索
レビュー	一律・浅い	重さで深さを使い分け
新モデル対応	来るたび作り直し	同じ作業台で差分検証

※ 上表は「見方」の対比であり、モデル性能を軽視するものではない。差がつくのは「モデル性能＋作業環境」の掛け算。外部ツールの数値は公式/GitHub上の主張でCAG非検証。

出典・脚注

本記事の主張「主戦場がモデル比較から作業環境比較へ広がっている」は、下記の複数更新が示す方向性に基づくKai（CAG）の観察・解釈。定量的な市場データではない。素材＝kai_wiki deep dive「AI開発の主戦場はモデル比較から作業環境比較へ移った」（2026-06-29・fact-check済）。
GitHub Changelog「GitHub Desktop 3.6 — worktrees and deeper Copilot integration」（2026-06-26）。worktree対応、Copilotによるcommit authoring、merge conflict支援、model picker、BYOK、AGENTS.md / copilot-instructions 参照。
https://github.blog/changelog/2026-06-26-github-desktop-3-6-worktrees-and-deeper-copilot-integration/
GitHub Changelog「Copilot code review: analysis depth and efficiency updates」（2026-06-25）／「Shape Copilot code review around your team」（2026-06-02）。review depth、MCP servers、agent skills、grep/rg/glob/view 等のfile探索ツール、組織デフォルト設定。
https://github.blog/changelog/2026-06-25-copilot-code-review-analysis-depth-and-efficiency-updates/
OpenAI Codex Changelog。pull request ワークフロー、レビューコメント、変更ファイル、artifact viewer、automations、worktrees、AGENTS.md 等の作業環境要素。
https://developers.openai.com/codex/changelog
GitHub Changelog「MAI-Code-1-Flash for Copilot Business and Copilot Enterprise」（2026-06-26）。低遅延・高頻度の agentic coding ワークフロー向けとして一般提供。plan adminによるpolicy有効化が必要。
https://github.blog/changelog/2026-06-26-mai-code-1-flash-for-copilot-business-and-copilot-enterprise/
codebase-memory-mcp（DeusData・GitHub）。repoをナレッジグラフ化し構造検索できるMCPサーバー。MIT。確認時点（2026-06-29）約19,600★。性能値（トークン削減等）はREADME上の主張で第三者再現は未確認。
https://github.com/DeusData/codebase-memory-mcp
headroom（headroomlabs-ai・GitHub）。ツール出力・ログ・ファイル・履歴を圧縮し、cross-agentの文脈レイヤー/MCPを提供。Apache-2.0。確認時点約53,000★。
https://github.com/headroomlabs-ai/headroom
SkillSpector（NVIDIA・GitHub）。AI agent skillsの脆弱性・悪意あるパターン・MCP最小権限などを検出するスキャナー。Apache-2.0。確認時点約11,300★。
https://github.com/NVIDIA/SkillSpector

AIが迷わず働ける"作業環境"を、一緒に整えませんか

AGENTS.md・worktree運用・repo記憶・レビューゲート・MCP権限設計まで、AI駆動開発の土台づくりをご相談いただけます。気軽にどうぞ。

CAGに相談する

技術 AI駆動開発コーディングエージェント AGENTS.md worktree MCP GitHub Copilot Codex

この記事を書いた人

甲斐ショウジSHOJI KAI

CAG主宰／合同会社ATK CAIO（最高AI責任者）

電脳技巧集団（AI職人ギルド）主宰。合同会社ATKのCAIO（最高AI責任者）。20年超のIT事業経験を持ち、複数のAI企業でCAIOを務め、生成AI・AIエージェントの実装を主導。100以上のAIプロダクト開発を指揮してきた。脱・人月商売と透明性を掲げ、設計判断とHITL（最終判断は人間）の責任を握りながらフルAI駆動でものづくりを進める。「言語化できるものは、全て作る」。

言語化できるものは、全て作る。

あなたの「作りたい」を、定価とスピードで形に。まずは無料の相談から。

制作事例を見る

01脳は​雇った。​でも​職場が​壊れている

02GitHubも​OpenAIも、​同じ方​向を​向いている

03脳を​タスクで​分ける​ ──全部に​最強モデルは​要らない

04記憶・圧縮・安全 ──脳を​支える​"職場インフラ"

05CAGの​作業台 ──​私たちが標準化している​こと

06とは​いえ ──「職場さえ​整えれば」も​誇張だ