Qwen 3.5 — 9Bパラメータで120Bモデルを超えるオープンソースAIの衝撃

1. 今何が話題か

2026年2月16日にAlibabaのQwenチームが公開したQwen 3.5が、3月に全サイズが出揃い、オープンソースAIの新たな基準を示している。9Bパラメータのモデルが120B級モデルをベンチマークで上回るという結果が、大型モデル優位の前提を覆した。Apache 2.0ライセンスで商用利用に制限がなく、0.8Bからフラッグシップの397Bまで幅広いサイズ展開を備えている。

2. 話題になっている理由

Qwen 3.5の核心はMixture of Experts（MoE）アーキテクチャにある。フラッグシップモデルは総パラメータ397B、推論時のアクティブパラメータは17Bで、512個のエキスパートから10個を選択して処理する。すべてのパラメータを常時使う従来のDenseモデルとは異なり、精度と効率を両立している。API利用コストは入力100万トークンあたり$0.10で、Claude Sonnetの約30分の1に相当する価格帯だ。

3. 実際に起きている変化

GPQA Diamondベンチマークで、9Bモデルが81.7を記録し、GPT-OSS-120Bの71.5を大幅に上回った。パラメータ数が13分の1以下のモデルがより大きなモデルを超える結果は、MoEの効率性とQwenチームの学習手法の成果である。

モデルサイズは用途に応じて細かく展開されている。122B-A10Bはサーバー・クラウド推論、35B-A3Bはデスクトップ・ワークステーション、9Bはエッジデバイス、4B・2B・0.8Bはモバイル・組み込み向けに設計されている。9Bモデルであれば16GB程度のVRAMを持つGPUで動作し、ローカル環境での開発やテストが完結できる。

4. 過熱評価されている点

ベンチマークスコアの優位性は特定の評価基準に依存しており、すべてのタスクで120Bモデルを上回るわけではない。MoEアーキテクチャは推論コストを抑えるが、フラッグシップモデル（397B）のデプロイには大規模なインフラが依然として必要である。Apache 2.0ライセンスの自由度は高いが、ファインチューニングや運用には相応の技術力とリソースが求められる。

5. 現実的な使いどころ

9B以下のモデルはローカル環境での実行を前提に設計されており、プライバシーを重視するユースケースに適している。$0.10/100万トークンという価格帯により、大量のドキュメント処理、リアルタイムチャットボット、RAGパイプラインの大規模運用がコスト面で現実的になった。Apache 2.0ライセンスとコンパクトなモデルサイズの組み合わせにより、特定ドメインへのファインチューニングが個人や小規模チームでも手の届く範囲になっている。タスクの難易度に応じてモデルサイズを使い分けることで、品質を維持しながらコストを削減できる。

6. 今後見るべきポイント

Meta（Llama）、Mistral、DeepSeekと並ぶオープンソースAI「4強時代」の競争がどう展開するかが注目される。MoEアーキテクチャの効率化がさらに進むことで、エッジデバイスやモバイルでの実用性がどこまで向上するかも重要な指標だ。各社の競争によりオープンモデルの品質が加速度的に向上する流れが続くか、今後の動向を注視する必要がある。

7. 出典

公式: Alibaba Qwenチーム公式リリース、Apache 2.0ライセンス公開
参考: GPQA Diamondベンチマーク結果、LiveCodeBenchスコア
補足: 記事内で言及された情報に基づく