技術ノート | AI駆動開発の現場から
AI開発の話題は、いまも「GPTが強い」「Claudeが賢い」「Copilotが便利」というモデル比較で盛り上がる。けれど毎日AIにコードを書かせていると、差がつく場所はそこだけではないと分かってくる。賢いモデルを入れても、repoのルールを知らない・作業ブランチが混ざる・過去の判断を忘れる・レビューが浅い・読ませてはいけない秘密値を読む。これでは、どれだけ優秀な"脳"を雇っても、職場が散らかっていて成果が積み上がらない。
2026年6月の更新を並べると、その「職場」のほうが動き出しているのが見える。GitHub Desktop 3.6、Copilot 向けの低遅延モデル MAI-Code-1-Flash、深さを設定できる Copilot コードレビュー、そして repo の記憶・文脈圧縮・スキル安全を担う周辺ツール群。AI開発の主戦場は、モデル単体から「AIが働く作業環境(harness)」へ広がっている。[1]
この記事は、私たち電脳技巧集団(AI職人ギルド)が毎日 Claude Code や Codex を使って受託開発を回している現場の視点から、この流れを整理する。要点を先に言うと——モデルは脳、harness は職場。職場が弱いと、強い脳も仕事にならない。なお外部ツールの数値やスター数は確認時点(2026-06-29)のGitHub・公式情報に基づくもので、CAGが独自に検証したものではない。

01脳は雇った。でも職場が壊れている
現場の困りごとから始めたい。AIコーディングを本気で回すと、最初にぶつかるのは「モデルが賢いか」ではなく、同じ失敗が繰り返されることだ。原因をたどると、たいていモデルではなく作業環境にある。
面白いのは、これらが全部「モデルを別のものに替えても直らない」ことだ。GPTをClaudeにしても、repoのルールは伝わらないし、過去の判断は思い出せない。直すべきは脳ではなく、脳が働く環境のほう。そして2026年6月、まさにその環境が業界全体で更新され始めた。
02GitHubもOpenAIも、同じ方向を向いている
象徴的なのが GitHub Desktop 3.6 だ。これまで「Gitのクライアント」だったツールが、worktree(作業ブランチの分離)、AGENTS.md / copilot-instructions の参照、モデルピッカー、BYOK(自前のAPIキー持ち込み)、マージコンフリクト支援を同じGit作業面にまとめて入れてきた。[2] commitメッセージの生成も、repoの基準(AGENTS.md 等)に合わせる前提になっている。「AIをどこに置くか」ではなく「AIが働く作業台ごと作る」発想だ。
Copilotのコードレビューも同じだ。レビューの「深さ(review depth)」を組織のデフォルトとして設定でき、MCPサーバー・スキル、さらに grep / rg / glob / view といったCLI由来のファイル探索ツールを使ってコードを読み込むようになった。[3] レビューもまた「作業環境の設定対象」になったわけだ。OpenAI Codex の更新履歴も、pull request ワークフロー・レビューコメント・変更ファイル表示・worktrees・AGENTS.md・automations と、同じく作業環境の要素を前に出している。[4]
03脳をタスクで分ける ──全部に最強モデルは要らない
もうひとつの変化が、モデルを役割で使い分ける動きだ。GitHubは Copilot Business / Enterprise 向けに MAI-Code-1-Flash を一般提供した。位置づけは明確で、低遅延・高頻度の agentic coding ワークフロー向け——つまり重い設計判断ではなく、軽くて回数の多い反復タスクを担うモデルだ。[5]
これはコードレビューの「深さ」を変えられる話と地続きだ。軽微な変更は速く浅く、DB・認証・課金・RLSのような壊れると痛い変更は深く。脳もレビューも「常に最強・常に全力」ではなく、タスクの重さに合わせて強度を選ぶ。コストと速度を無駄にせず、肝心なところに重さを寄せる——これも立派な作業環境の設計だ。
04記憶・圧縮・安全 ──脳を支える"職場インフラ"
作業環境を支える周辺ツールも育っている。GitHub上で伸びている3つのrepoが分かりやすい(数値はいずれも確認時点のGitHub・README上の主張で、第三者再現やCAGの検証ではない)。
| 役割 | ツール(OSS) | 何を解決するか |
|---|---|---|
| 記憶 | codebase-memory-mcp MIT・約19,600★ | repoをナレッジグラフ化し、agentが総当たりで読まず構造検索できるMCPサーバー[6] |
| 圧縮 | headroom Apache-2.0・約53,000★ | ツール出力・ログ・履歴・ファイルを圧縮し、Claude / Codex 等を横断する文脈レイヤー[7] |
| 安全 | SkillSpector Apache-2.0・約11,300★ | スキルやMCPの脆弱性・悪意あるパターンを導入前にスキャン(最小権限の発想)[8] |
※ スター数・性能値は2026-06-29時点のGitHub/READMEの記載。話題性の目安であって品質保証ではない(ライセンス・更新頻度・セキュリティを別途確認すべき)。codebase-memory-mcp の「トークン大幅削減」等の数値もREADME上の主張で、第三者再現は未確認。
並べると役割分担が見えてくる。記憶はrepoの構造を覚え、毎回全文を読ませない。圧縮は長いログやツール出力を要点に畳んで文脈を節約する。安全はスキルやMCPを増やすほど広がる攻撃面を、入れる前に点検する。どれも「モデルの賢さ」とは別の、職場の設備だ。脳が優秀でも、机が無く・記憶が無く・施錠も無い職場では、まともに働けない。
関連記事 | スキル/MCPを増やす前に読む"安全"の話MCPは便利な拡張機能ではなく、権限レイヤーだ
→
05CAGの作業台 ──私たちが標準化していること
ここからは現場の一次情報だ。私たちは受託開発でClaude CodeやCodexを毎日使うが、案件の品質を決めているのは「どのモデルを選ぶか」より、どのrepoでも同じ"作業台"を最初に組むことだと感じている。長く触るrepo(GMJ系・CAG・マルチテナント基盤など)では、次の5点を標準化している。

- worktree(机を分ける):作業単位ごとにブランチを物理的に分離し、agentの並行作業が混ざらないようにする。1つの机で複数の仕事を広げない。
- AGENTS.md / docs/TASKS.md(就業規則):repo固有のルール・禁止事項・検証コマンド・「人が承認すべき境界」を明文化する。新しい脳が来ても作法が伝わる。
- repoの記憶(資料棚):構造検索できる索引を用意し、毎回コードを総当たりで読ませない。文脈を節約し、調査を速くする。
- レビューゲート(上司):軽微な変更は速く、DB・RLS・認証・課金・外部送信のような壊れると痛い変更は深くレビューする。重さを使い分ける。
- MCP・権限の棚卸し(鍵の管理):agentが触れる範囲を最小に絞り、削除・デプロイ・外部送信・秘密値の読み取りは承認ゲートの内側に置く。
この5点は、どれも特定のモデルに依存しない。だからモデルが新しくなっても作り直す必要がなく、むしろ新モデルの差分検証がやりやすくなる。「最強モデルが来た」ときに慌てて飛びつくのではなく、整った作業台で旧モデルと並べて走らせ、自分たちの作法を守れるかを確かめる。脳を替える前に、職場が整っているか。これがCAGの順番だ。
関連記事 | なぜ"最強モデル選び"だけでは足りないか「最強モデル」より「強いharness」── frontier AIが"政策で止まる"時代のエージェント設計
→
06とはいえ ──「職場さえ整えれば」も誇張だ
誤解されないように、反対側も正直に書く。「モデル比較は終わった」「repo indexを入れれば全部解決」と言うのは、どちらも言い過ぎだ。差がつく軸が増えただけで、モデル性能が要らなくなったわけではない。
- モデル性能はまだ重要。設計・抽象化・セキュリティ判断・未知のバグ調査では、強いモデルがはっきり効く。職場を整えたうえで、肝心な仕事には強い脳を使う。
- 記憶は古くなる。間違った記憶・古いindexは、agentを自信たっぷりに誤誘導する。記憶は「正」ではなく「補助」で、元の文書へ戻れる設計を残す。
- 圧縮は情報を落とす。長いログを畳むのは便利だが、DB/RLS/セキュリティの微妙な差分を落とすことがある。重要判断では原文に戻れるようにする。
- worktreeは万能ではない。机は分けられても、DBマイグレーション・環境変数・Vercel/Supabaseのような共有された外部状態は分離されない。ここは別の注意が要る。
- スキル・MCPは増えるほど危ない。便利さと攻撃面はセットで増える。導入前スキャンと最小権限を前提にする。
だから結論は足し算ではなく掛け算だ。強いモデル × 整った作業環境。どちらかがゼロなら成果もゼロに近づく。モデル比較だけを見ている人は、AI開発の作業台を見落としている。逆に、worktree・AGENTS.md・記憶・レビューゲート・権限の棚卸しを整えた人は、どのモデルが来ても淡々と成果を出せる。次に差がつくのは、脳の銘柄ではなく職場の設計のほうだ。
| AI開発の見方 | モデル比較だけ | モデル × 作業環境(harness) |
|---|---|---|
| 問い | どれが賢いか | どの職場で働かせるか |
| repoの作法 | 毎回モデル任せ | AGENTS.mdで明文化・継承 |
| 並行作業 | ブランチが混ざる | worktreeで机を分ける |
| 過去の判断 | 毎回忘れる | 記憶(索引)で構造検索 |
| レビュー | 一律・浅い | 重さで深さを使い分け |
| 新モデル対応 | 来るたび作り直し | 同じ作業台で差分検証 |
※ 上表は「見方」の対比であり、モデル性能を軽視するものではない。差がつくのは「モデル性能 + 作業環境」の掛け算。外部ツールの数値は公式/GitHub上の主張でCAG非検証。
出典・脚注
- 本記事の主張「主戦場がモデル比較から作業環境比較へ広がっている」は、下記の複数更新が示す方向性に基づくKai(CAG)の観察・解釈。定量的な市場データではない。素材=kai_wiki deep dive「AI開発の主戦場はモデル比較から作業環境比較へ移った」(2026-06-29・fact-check済)。
- GitHub Changelog「GitHub Desktop 3.6 — worktrees and deeper Copilot integration」(2026-06-26)。worktree対応、Copilotによるcommit authoring、merge conflict支援、model picker、BYOK、AGENTS.md / copilot-instructions 参照。
https://github.blog/changelog/2026-06-26-github-desktop-3-6-worktrees-and-deeper-copilot-integration/ - GitHub Changelog「Copilot code review: analysis depth and efficiency updates」(2026-06-25)/「Shape Copilot code review around your team」(2026-06-02)。review depth、MCP servers、agent skills、
grep/rg/glob/view等のfile探索ツール、組織デフォルト設定。
https://github.blog/changelog/2026-06-25-copilot-code-review-analysis-depth-and-efficiency-updates/ - OpenAI Codex Changelog。pull request ワークフロー、レビューコメント、変更ファイル、artifact viewer、automations、worktrees、AGENTS.md 等の作業環境要素。
https://developers.openai.com/codex/changelog - GitHub Changelog「MAI-Code-1-Flash for Copilot Business and Copilot Enterprise」(2026-06-26)。低遅延・高頻度の agentic coding ワークフロー向けとして一般提供。plan adminによるpolicy有効化が必要。
https://github.blog/changelog/2026-06-26-mai-code-1-flash-for-copilot-business-and-copilot-enterprise/ - codebase-memory-mcp(DeusData・GitHub)。repoをナレッジグラフ化し構造検索できるMCPサーバー。MIT。確認時点(2026-06-29)約19,600★。性能値(トークン削減等)はREADME上の主張で第三者再現は未確認。
https://github.com/DeusData/codebase-memory-mcp - headroom(headroomlabs-ai・GitHub)。ツール出力・ログ・ファイル・履歴を圧縮し、cross-agentの文脈レイヤー/MCPを提供。Apache-2.0。確認時点 約53,000★。
https://github.com/headroomlabs-ai/headroom - SkillSpector(NVIDIA・GitHub)。AI agent skillsの脆弱性・悪意あるパターン・MCP最小権限などを検出するスキャナー。Apache-2.0。確認時点 約11,300★。
https://github.com/NVIDIA/SkillSpector
AIが迷わず働ける"作業環境"を、一緒に整えませんか
AGENTS.md・worktree運用・repo記憶・レビューゲート・MCP権限設計まで、AI駆動開発の土台づくりをご相談いただけます。気軽にどうぞ。
CAGに相談する








