2026.02.09 | テクノロジー

Claude Opus 4.6のアップデート内容を解説:何が変わった?

Claude Opus 4.6が発表され、Claudeの最上位モデルが更新されました。コーディング能力の強化に加え、長い文脈を保ったまま作業を続ける力や、調査・資料作成の実用性も改善されています。本記事では発表内容を軸に、要点を整理します。

Claude Opus 4.6は何が強化されたのか

Claude Opus 4.6は、Anthropicが提供するClaudeシリーズの最上位モデルとして発表されています。今回の更新は「できることを増やす」というより、実務で使ったときに崩れやすい部分を減らす方向で整理されているのが特徴です。
まず、コーディング能力の改善が明記されています。ここで言う改善は、コード生成だけではありません。より慎重に計画を立てられること、エージェント的タスクをより長く維持できること、大規模なコードベースでもより安定して動作できること、さらにコードレビューやデバッグ能力が向上し、自分のミスを見つけやすくなったことまで含まれます。特に「自分のミスを検知する」という説明は、生成AIの弱点としてよく挙げられる点に直接触れています。

さらに、Opusクラスとして初めて、1M tokenのコンテキストウィンドウがベータで導入されました。コンテキストウィンドウは、モデルが一度に保持できる情報量の上限です。入力できる情報が増えるほど、長い資料や複雑な会話を扱う場面での安定性に影響します。
また発表では、コーディング以外の用途も明確に挙げられています。財務分析、リサーチ、ドキュメント・スプレッドシート・プレゼン資料の利用や作成などです。ここまでの説明は発表の主張ですが、次のベンチマーク結果は「どこが強いのか」を具体的に示す材料として提示されています。

ベンチマーク結果は何を意味するのか

Opus 4.6の発表では、ベンチマーク(性能評価)の話が大きな比重を占めています。ここで重要なのは、スコアの大小そのものより「どの能力を強みとして押し出しているか」です。
まず、Terminal-Bench 2.0では最高スコアを達成したとされています。発表の文脈では、単発でコードを書けるかよりも、作業を計画しながら進め、途中で止まらずにやり切る力に結びついた説明になっています。次に、Humanity’s Last Examでは、複雑な学際的推論テストで他の最先端モデルを上回ったと説明されています。これは、特定分野だけで強いのではなく、複数領域をまたぐ推論ができることを示す意図が読み取れます。

さらに、GDPval-AAでは金融・法務などの知的業務における性能が示されています。ここではEloという指標が使われており、Opus 4.6が業界の次点モデル(OpenAIのGPT-5.2)を約144 Elo上回り、前モデル(Claude Opus 4.5)より190 Elo高いとされています。Eloは差が大きいほど性能差があることを示す指標です。加えて、BrowseCompでは、オンライン上で見つけにくい情報を探し出す能力が高いと説明されています。これは検索結果の要約ではなく、情報の所在に辿り着く力を評価している点が特徴です。
こうした評価結果をまとめると、Opus 4.6は「コーディングだけ強いモデル」ではなく、推論や調査、知的業務まで含めて幅広く評価されたモデルとして提示されています。次のセクションでは、その中でも特に強調されている長文性能と、使い方に直結する新機能が整理されます。

長文性能・安全性・新機能で「使い方」が変わる

Opus 4.6の発表で、実務に一番効きそうなのは「長い資料を扱うときに、途中で崩れにくくなった」という点です。生成AIは、入力が長くなるほど話がずれたり、前に出てきた条件を忘れたりすることがあります。発表ではこの問題をcontext rotと呼び、Opus 4.6ではそこが改善したと説明しています。
その根拠として示されているのが、長い文章の中から必要な情報を見つけられるかを測る評価です。発表ではMRCR v2というテストが紹介され、100万トークン規模の文章の中に埋もれた情報を探す条件で、Opus 4.6が76%、Sonnet 4.5が18.5%だったとされています。要するに「文章が長くても、必要な部分を拾い続けやすい」という主張です。
次に安全性です。発表では、欺瞞(わざと誤魔化すこと)、迎合(相手に合わせすぎること)、妄想の助長、悪用への協力といった問題行動が低い水準だったと説明されています。さらに、無害な質問に答えない「過剰拒否」が最近のClaudeモデルの中で最も低いとも述べられています。仕事で使うAIは、危険な依頼を断る一方で、必要な作業は止めずに進められることが重要なので、ここは現実的な評価です。

そしてOpus 4.6は、モデルの性能だけで終わらず、長時間タスクを回すための仕組みも更新されています。Claude Codeでは複数のエージェントが並列で作業するagent teamsが研究プレビューとして導入され、APIでは会話が長くなったときに古い文脈を要約して置き換えるcontext compaction(ベータ)が追加されました。さらに、思考量を調整するeffort(4段階)とadaptive thinkingも導入されています。加えて、Claude in Excelの改善と、Claude in PowerPointの研究プレビューも発表されています。
まとめるとOpus 4.6は、性能を上げるだけでなく「長い資料を読み、作業を続け、最後まで仕上げる」ことを前提に整えられた更新です。ここが揃うことで、AIは単発の回答ツールから、仕事を進める相棒へ近づいていきます。

まとめ

いかがだったでしょうか?
Claude Opus 4.6は、コーディング能力の改善に加え、長い文脈を扱う性能や長時間タスクの安定性を重視した更新として発表されています。
ベンチマーク結果は、その強みがどこにあるのかを具体的に示す形で提示されていました。
安全性評価やAPI・プロダクト更新も含め、実務で使うことを前提にした改善が揃っています。
Claudeを仕事で使う人ほど、違いが分かりやすい内容です。