Qwen3.5-9Bがgpt-oss-120B超え!小型AIの実力
巨大モデルの開発競争が続く中、Alibabaが発表したQwen3.5-9Bが注目を集めています。約13倍の規模を持つOpenAI「gpt-oss-120B」を一部ベンチマークで上回り、一般的なノートPCでも動作可能とされています。小型でありながら高い性能を示した背景には何があるのか。事実と構造の両面から整理します。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
小型モデルが大型モデルを上回った事実と、その評価軸の変化
AIモデルは長く「パラメータ数の多さ」が性能の指標とされてきました。パラメータとは、学習によって調整される内部の重みの数を指します。数が増えれば扱える情報量も増えると考えられ、数千億規模のモデルが次々と登場してきました。
Qwen3.5-9Bは約90億パラメータです。一方、OpenAIのgpt-oss-120Bは約1200億パラメータで、単純な規模差は明らかです。それにもかかわらず、公開された第三者ベンチマークでは9Bが一部の指標で120Bを上回りました。
大学院レベルの推論力を測るGPQA Diamondでは、Qwen3.5-9Bが81.7、gpt-oss-120Bが80.1を記録しています。多言語理解を評価するMMMLUでも9Bが上回る結果が示されました。さらに動画理解(Video-MME、字幕あり)や文書認識(OmniDocBench v1.5)でも高いスコアを出しています。

もちろん、すべての能力で常に優位という意味ではありません。公開ベンチマークの範囲で、特定の推論・多言語・動画・文書理解タスクにおいて逆転が起きているという事実がある、ということです。それでも「規模が大きいほど必ず高性能」という単純な図式が揺らいでいるのは確かです。では、なぜそのような結果が出せたのでしょうか。鍵を握るのは、モデル内部の設計です。
Efficient Hybrid Architectureとローカル実行が示す現実的な選択肢

Qwen3.5 Smallシリーズは、従来型のTransformerをそのまま拡張したモデルではありません。AlibabaはEfficient Hybrid Architectureを採用し、計算効率を重視した構造へと設計を見直しています。
Gated Delta Networksは線形アテンションの一種です。アテンションとは、入力データの中から重要な部分を選択的に処理する仕組みを指します。一般的なTransformerでは入力が長くなると計算量が増えやすい傾向がありますが、線形アテンションはその増加を抑えます。推論時の遅延が低減される点が特徴です。
Sparse Mixture-of-Experts(MoE)は、複数の専門ネットワークのうち必要な部分だけを活性化する仕組みです。全体を常時稼働させるのではなく、タスクに応じて一部のみを使うことで計算資源を効率的に配分します。
さらにQwen3.5は、テキストに視覚機能を後から追加する方式ではなく、学習段階からマルチモーダルトークンを統合するアーリーフュージョンで訓練されています。そのため、UI要素の読み取りや動画内オブジェクトの把握といった処理に対応できます。
モデルの重みはApache 2.0ライセンスで公開され、商用利用や改変、再配布が可能です。9Bモデルは一般的なノートPC環境での実行が想定され、0.8Bや2Bはモバイル利用も視野に入れられています。巨大なクラウド環境だけに依存しない構成を選べる点は、運用上の選択肢を広げます。
一方で、9B規模でも十分なVRAMは必要であり、マルチステップ処理では誤りが連鎖する可能性があります。
小型であることが万能を意味するわけではありません。それでも、規模の拡大とは異なる方向から実用性を高める道筋が示されたことは重要です。
まとめ

いかがだったでしょうか?
Qwen3.5-9Bは、公開ベンチマークの一部で大型モデルを上回る結果を示しました。規模だけで性能を語る見方は、すでに十分とは言えなくなっています。構造設計と公開形態の工夫によってローカル実行という現実的な選択肢も提示され、AIモデルの評価軸は確実に多面的なものへと移りつつあります。