Qwen 3.5入門 — 9Bパラメータで120B超え、ノートPCで動くAIの衝撃
「AIを使いたいけど、API料金が気になる」 「社外にデータを出したくない」
そんな悩みを抱えていませんか?
実は今、その常識がひっくり返る出来事が起きています。 たった9B(90億)パラメータのAIモデルが、120B(1200億)パラメータの大型モデルをベンチマークで超えてしまったのです。
しかも、あなたのノートPCで動きます。
本記事では、話題のQwen 3.5の全貌から、今日すぐに試せる具体的な手順まで解説します。 ローカルAIに興味がある方は、ぜひ最後まで読んでください。
Qwen 3.5とは? — Alibabaが放つオープンソースAIの全貌
9Bモデルの衝撃を理解するには、まずQwen 3.5の全体像を押さえましょう。
Qwen 3.5は、中国Alibaba傘下のQwenチームが2026年2〜3月にリリースしたオープンソースAIモデルです。
最大の特徴は、8つのモデルを一挙公開したこと。
- 小型: 0.8B、2B、4B、9B(dense構造)
- 中型: 27B(dense)、35B-A3B、122B-A10B(MoE構造)
- フラグシップ: 397B-A17B(MoE構造)
「MoE(Mixture of Experts)」とは、全パラメータのうち一部だけを動かす仕組みです。 巨大モデルでも効率的に推論できます。
ライセンスはApache 2.0。 商用利用も自由で、誰でもダウンロードして使えます。
対応言語は201言語。 日本語ももちろん含まれています。
Hugging Face、Ollama、ModelScopeで公開済み。 すぐにダウンロード可能です。
なぜ9Bが120Bに勝てたのか — ベンチマーク徹底解説
Photo by BoliviaInteligente on Unsplash
Qwen 3.5の全体像がわかったところで、核心に迫ります。 なぜ9Bという小さなモデルが、13倍以上大きなモデルに勝てたのでしょうか。
具体的な数値を見てみましょう。
Qwen3.5-9B vs GPT-OSS-120B の比較
- GPQA Diamond(大学院レベルの科学問題): 81.7 vs 80.1
- MMLU-Pro(総合知識テスト): 82.5 vs 80.8
- MMMLU(多言語知識テスト): 81.2 vs 78.2
すべてQwen3.5-9Bが上回っています。 パラメータ数は13分の1以下です。
コーディング能力も高水準です。 LiveCodeBench v6で82.7点を記録しました。
画像理解タスクでも健闘しています。 MMMU-Proでは70.1点を獲得。 GPT-5-Nanoの57.2点を**22.5%**上回りました。
この性能の秘密は、アーキテクチャにあります。 「Gated Delta Networks」という新しい線形アテンション機構を採用しています。 従来のフルアテンションと3:1の比率で組み合わせ、計算効率と性能を両立しました。
ただし、注意点もあります。 ベンチマークは特定のテスト環境での数値です。 実際の複雑なタスクでは、GPT-5.4やClaude Opus 4.6に及ばない場面もあります。 XDA Developersも「ベンチマークだけでモデルを選ぶのは危険」と指摘しています。
今日から試せる!ローカルでQwen 3.5を動かす3つの方法
Photo by Daniil Komov on Unsplash
ベンチマークの凄さを確認したところで、実際に動かしてみましょう。 難易度別に3つの方法を紹介します。
方法1: Ollama(初心者におすすめ)
最も簡単な方法です。
必要なもの: 8GB以上のRAMがあるPC
手順:
- Ollama公式サイト(https://ollama.com)からインストール
- ターミナルで以下を実行
ollama run qwen3.5:9b
これだけでOKです。 モデルがダウンロードされ、すぐにチャットできます。
Q4量子化版なら約5GBのVRAMで動作します。 RTX 3060(12GB)やM1 Mac(8GB統合メモリ)で快適です。
APIサーバーとしても使えます。
http://localhost:11434 でOpenAI互換APIが立ち上がります。
既存のアプリにもそのまま組み込めます。
方法2: llama.cpp(中級者向け)
より細かい制御がしたい方向けです。
./llama-server -m qwen3.5-9b-q4_k_m.gguf -c 8192 -ngl 60 -p 8080
ポイント:
-ngl 60: GPUに60レイヤーをオフロード-c 8192: コンテキスト長8,192トークン- thinking(思考)モードも有効化可能
GTX 1080 Tiで毎秒34トークンの速度が報告されています。
方法3: LM Studio(GUI派向け)
コマンドラインが苦手な方におすすめです。
- LM Studio(https://lmstudio.ai)をダウンロード
- 検索バーで「Qwen 3.5」を検索
- 量子化レベルを選んでダウンロード
- 「Chat」タブで会話スタート
GUIで直感的に操作でき、モデルの切り替えもワンクリックです。
VRAM別おすすめモデル
- 4GB以下: Qwen3.5-2B(軽量タスク向け)
- 6〜8GB: Qwen3.5-9B Q4(ベストバランス)
- 12GB以上: Qwen3.5-9B Q8(高品質)
- 24GB以上: Qwen3.5-27B Q4(ヘビーユース)
MacBookで400Bモデル? — Apple「LLM in a Flash」の魔法
小型モデルの動かし方を見てきましたが、さらに驚きの事例を紹介します。
開発者のDan Woods氏が、48GBのMacBook Pro(M3 Max)で397Bパラメータのフラグシップモデルを動かすことに成功しました。
ディスク上のサイズは209GB。 しかしアクティブメモリはわずか5.5GB。 毎秒5.7トークンを生成できます。
秘密は、Appleが2023年に発表した「LLM in a Flash」技術です。
MoEモデルは推論時に全パラメータを使いません。 必要なエキスパートだけをSSDからメモリに読み込みます。 M3 MaxのSSD読み取り速度は毎秒17.5GB。 これがリアルタイム推論を可能にしています。
興味深いのは、エキスパートの起動数を10個から4個に減らしても品質が落ちなかったこと。 Woods氏によると、約5,000行のコードはClaudeが24時間で生成したそうです。
ソースコードはgithub.com/danveloper/flash-moeで公開されています。 M4 Maxなら約8トークン/秒に到達する見込みです。
知っておくべき課題と限界
ここまでQwen 3.5の可能性を見てきましたが、課題も押さえておきましょう。
1. ベンチマークと実用のギャップ
ベンチマークでは120Bを超えますが、複雑な実務タスクでは差が出ます。 データ可視化タスクではGPT-5.4が200点中178点。 Qwen 3.5は163点で、約8%の差があります。
2. コンテキストの劣化
公称では最大256Kトークンに対応しています。 しかし40,000〜50,000トークンを超えると指示追従能力が低下するとの報告があります。
3. 追従性(Sycophancy)
「あなたは絶対に正しい」から始まる回答が多いと指摘されています。 批判的な視点が必要な場合は、プロンプトで明示的に指示しましょう。
4. ハルシネーション
学習データのカットオフ以降の情報について、自信を持って誤った回答をすることがあります。 ファクトチェックは必須です。
5. 過剰な検閲
フィクションでも暴力描写を拒否するケースがあります。 HuggingFaceには検閲を緩和した「abliterated」版が4,900以上公開されています。
課題はありますが、「無料・オフライン・プライバシー保護」という3つのメリットは強力です。 課題を理解した上で、適切な場面で活用するのが賢い使い方でしょう。
まとめ — ローカルAIの民主化はもう始まっている
本記事のポイントをまとめます。
- Qwen 3.5-9Bは13倍大きいGPT-OSS-120Bをベンチマークで上回った
- Apache 2.0ライセンスで商用利用も自由
- Ollamaなら1コマンドで今日から使える
- 5GB程度のVRAMがあればノートPCでも快適に動作
- Apple LLM in a Flashで400Bモデルすら48GB MacBookで動く時代に
- 課題はあるが、改善は急速に進んでいる
ローカルAIの民主化は、もう始まっています。
まずはOllamaをインストールして、このコマンドを実行してみてください。
ollama run qwen3.5:9b
あなたのノートPCが、AIラボに変わる瞬間を体験できるはずです。