2026.02.21 | テクノロジー

Claude Sonnet 4.6は何が変わった?性能・操作・安全性の全体像

Claude Sonnet 4.6が登場しました。コーディングや長文理解、計画立案、デザインなど幅広い能力が強化され、ベータ版では100万トークン規模の文脈を扱えます。Free/Proでは標準モデルとなり、価格は据え置きのままです。

Claude Sonnet 4.6は何が“アップグレード”されたのか

Claude Sonnet 4.6は、Sonnetシリーズの最新版として位置づけられ、コーディング、長文を前提にした推論、エージェント計画(複数工程を整理し順序立てて進める力)、ナレッジワーク、デザインといった領域が横断的に引き上げられたと説明されています。特定の機能だけが伸びたのではなく、日常的な業務に直結する能力がまとめて底上げされた点が特徴です。
初期アクセスを行った開発者の多くは、前モデルであるSonnet 4.5よりもSonnet 4.6を好んだとされています。理由として挙げられているのは、一貫性や指示への追従性の向上です。さらに、2025年11月公開の最上位モデルClaude Opus 4.5と比べても、Sonnet 4.6を選ぶケースが一定数あったと報告されています。価格帯を踏まえると、この評価は注目に値します。

加えて、ベータ版として提供される100万トークンのコンテキストウィンドウも大きな要素です。トークンとは文章を細かく分割した単位で、100万トークンはコードベース全体や長文契約書、複数の研究論文を一度に扱える規模を意味します。重要なのは、情報量の多さだけではなく、その全体を横断して推論できる点です。長期的な計画や複雑な判断を要する作業への適性が示されています。そして、この基礎能力の強化が、次に触れるコンピュータ操作の進化を支えています。

注目すべきは“コンピュータ操作”の進化

Sonnet 4.6で特に目を引くのが、コンピュータ操作能力の向上です。多くの企業には、API(外部から自動操作するための仕組み)が存在しない古いシステムや専用ツールが残っています。従来は、AIにそれらを扱わせるために個別の連携機能を構築する必要がありましたが、画面を見てクリックし、入力するという人間と同じ操作ができるモデルであれば前提が変わります。
Anthropicは2024年10月に汎用のコンピュータ操作モデルを公開しました。当時は実験段階で、扱いにくさや誤りもあると明記されていました。その後の進歩を示すのがOSWorldというベンチマークです。OSWorldでは、Chrome、LibreOffice、VS Codeなど実在のソフトウェアをシミュレーション環境で動かし、AIが仮想マウスと仮想キーボードでどれだけ正確に操作できるかを測定します。特別なAPIや専用コネクタは使われません。

16か月にわたりSonnetモデルは着実に改善を重ね、複雑なスプレッドシートの操作や複数ステップのWebフォーム入力、複数タブを横断する作業で人間レベルの能力が見られたという報告もあります。一方で、最も熟練した人間にはまだ及ばないとも説明されています。過度な表現を避けつつ到達点を示している点が印象的です。そして操作能力が高まるほど、次に重要になるのが安全性です。

性能だけでは終わらない。安全性と“実務での価値”

Sonnet 4.6は、性能比較でも具体的な数字が示されています。Claude Codeでの初期テストでは、ユーザーはSonnet 4.5よりSonnet 4.6を約70%の割合で選好しました。コード変更前に文脈を丁寧に読み取り、共通ロジックを重複させず統合する傾向が評価されています。さらに、Claude Opus 4.5と比較しても59%の割合で好まれたとされ、過剰設計や「怠惰」と評される挙動の減少、指示への追従や複数ステップ作業の一貫性向上が理由に挙げられています。誤った成功宣言や事実と異なる内容の生成が減った点も報告されています。
長期的な判断力については、Vending-Bench Arenaという事業運営シミュレーション評価が紹介されています。複数のAIモデルが利益を競う形式で、Sonnet 4.6は前半に大きく投資し、終盤で収益性に集中する戦略を取り、最終的に競合を上回ったと説明されています。大量の文脈を扱える能力が、こうした長期視点の判断に結びついていることがうかがえます。

安全性についても広範な評価が行われ、最近のClaudeモデルと同等かそれ以上に安全と結論づけられています。特に、Webページ内に隠された命令でAIを誤誘導するプロンプトインジェクション攻撃への耐性が、Sonnet 4.5から大きく改善し、Opus 4.6と同程度の水準と評価されています。性能と安全性の両面が示されたことで、実務での利用を検討しやすい土台が整いました。

まとめ

いかがだったでしょうか?
Claude Sonnet 4.6は、能力向上だけでなく、実際のコンピュータ操作や長期的な判断、安全性まで具体的に示されたモデルです。
Free/Proで標準モデルとなり、価格が据え置きである点も現実的な判断材料になります。
上位モデルが前提だった業務領域に、より扱いやすい選択肢が広がりました。
自分の仕事にどう組み込めるかを考えながら試すことで、価値はより明確になるはずです。