Qwen 3.5入門 — 9Bパラメータで120B超え、ノートPCで動くAIの衝撃

「AIを使いたいけど、API料金が気になる」「社外にデータを出したくない」

そんな悩みを抱えていませんか？

実は今、その常識がひっくり返る出来事が起きています。たった9B（90億）パラメータのAIモデルが、120B（1200億）パラメータの大型モデルをベンチマークで超えてしまったのです。

しかも、あなたのノートPCで動きます。

本記事では、話題のQwen 3.5の全貌から、今日すぐに試せる具体的な手順まで解説します。ローカルAIに興味がある方は、ぜひ最後まで読んでください。

Qwen 3.5とは？ — Alibabaが放つオープンソースAIの全貌

9Bモデルの衝撃を理解するには、まずQwen 3.5の全体像を押さえましょう。

Qwen 3.5は、中国Alibaba傘下のQwenチームが2026年2〜3月にリリースしたオープンソースAIモデルです。

最大の特徴は、8つのモデルを一挙公開したこと。

小型: 0.8B、2B、4B、9B（dense構造）
中型: 27B（dense）、35B-A3B、122B-A10B（MoE構造）
フラグシップ: 397B-A17B（MoE構造）

「MoE（Mixture of Experts）」とは、全パラメータのうち一部だけを動かす仕組みです。巨大モデルでも効率的に推論できます。

ライセンスはApache 2.0。商用利用も自由で、誰でもダウンロードして使えます。

対応言語は201言語。日本語ももちろん含まれています。

Hugging Face、Ollama、ModelScopeで公開済み。すぐにダウンロード可能です。

なぜ9Bが120Bに勝てたのか — ベンチマーク徹底解説

プロセッサチップの回路基板クローズアップ Photo by BoliviaInteligente on Unsplash

Qwen 3.5の全体像がわかったところで、核心に迫ります。なぜ9Bという小さなモデルが、13倍以上大きなモデルに勝てたのでしょうか。

具体的な数値を見てみましょう。

Qwen3.5-9B vs GPT-OSS-120B の比較

GPQA Diamond（大学院レベルの科学問題）: 81.7 vs 80.1
MMLU-Pro（総合知識テスト）: 82.5 vs 80.8
MMMLU（多言語知識テスト）: 81.2 vs 78.2

すべてQwen3.5-9Bが上回っています。パラメータ数は13分の1以下です。

コーディング能力も高水準です。 LiveCodeBench v6で82.7点を記録しました。

画像理解タスクでも健闘しています。 MMMU-Proでは70.1点を獲得。 GPT-5-Nanoの57.2点を**22.5%**上回りました。

この性能の秘密は、アーキテクチャにあります。「Gated Delta Networks」という新しい線形アテンション機構を採用しています。従来のフルアテンションと3:1の比率で組み合わせ、計算効率と性能を両立しました。

ただし、注意点もあります。ベンチマークは特定のテスト環境での数値です。実際の複雑なタスクでは、GPT-5.4やClaude Opus 4.6に及ばない場面もあります。 XDA Developersも「ベンチマークだけでモデルを選ぶのは危険」と指摘しています。

今日から試せる！ローカルでQwen 3.5を動かす3つの方法

ネオンライトに照らされたラップトップとコード画面 Photo by Daniil Komov on Unsplash

ベンチマークの凄さを確認したところで、実際に動かしてみましょう。難易度別に3つの方法を紹介します。

方法1: Ollama（初心者におすすめ）

最も簡単な方法です。

必要なもの: 8GB以上のRAMがあるPC

手順:

Ollama公式サイト（https://ollama.com）からインストール
ターミナルで以下を実行

ollama run qwen3.5:9b

これだけでOKです。モデルがダウンロードされ、すぐにチャットできます。

Q4量子化版なら約5GBのVRAMで動作します。 RTX 3060（12GB）やM1 Mac（8GB統合メモリ）で快適です。

APIサーバーとしても使えます。 http://localhost:11434 でOpenAI互換APIが立ち上がります。既存のアプリにもそのまま組み込めます。

方法2: llama.cpp（中級者向け）

より細かい制御がしたい方向けです。

./llama-server -m qwen3.5-9b-q4_k_m.gguf -c 8192 -ngl 60 -p 8080

ポイント:

-ngl 60: GPUに60レイヤーをオフロード
-c 8192: コンテキスト長8,192トークン
thinking（思考）モードも有効化可能

GTX 1080 Tiで毎秒34トークンの速度が報告されています。

方法3: LM Studio（GUI派向け）

コマンドラインが苦手な方におすすめです。

LM Studio（https://lmstudio.ai）をダウンロード
検索バーで「Qwen 3.5」を検索
量子化レベルを選んでダウンロード
「Chat」タブで会話スタート

GUIで直感的に操作でき、モデルの切り替えもワンクリックです。

VRAM別おすすめモデル

4GB以下: Qwen3.5-2B（軽量タスク向け）
6〜8GB: Qwen3.5-9B Q4（ベストバランス）
12GB以上: Qwen3.5-9B Q8（高品質）
24GB以上: Qwen3.5-27B Q4（ヘビーユース）

MacBookで400Bモデル？ — Apple「LLM in a Flash」の魔法

小型モデルの動かし方を見てきましたが、さらに驚きの事例を紹介します。

開発者のDan Woods氏が、48GBのMacBook Pro（M3 Max）で397Bパラメータのフラグシップモデルを動かすことに成功しました。

ディスク上のサイズは209GB。しかしアクティブメモリはわずか5.5GB。 毎秒5.7トークンを生成できます。

秘密は、Appleが2023年に発表した「LLM in a Flash」技術です。

MoEモデルは推論時に全パラメータを使いません。必要なエキスパートだけをSSDからメモリに読み込みます。 M3 MaxのSSD読み取り速度は毎秒17.5GB。これがリアルタイム推論を可能にしています。

興味深いのは、エキスパートの起動数を10個から4個に減らしても品質が落ちなかったこと。 Woods氏によると、約5,000行のコードはClaudeが24時間で生成したそうです。

ソースコードはgithub.com/danveloper/flash-moeで公開されています。 M4 Maxなら約8トークン/秒に到達する見込みです。

知っておくべき課題と限界

ここまでQwen 3.5の可能性を見てきましたが、課題も押さえておきましょう。

1. ベンチマークと実用のギャップ

ベンチマークでは120Bを超えますが、複雑な実務タスクでは差が出ます。データ可視化タスクではGPT-5.4が200点中178点。 Qwen 3.5は163点で、約8%の差があります。

2. コンテキストの劣化

公称では最大256Kトークンに対応しています。しかし40,000〜50,000トークンを超えると指示追従能力が低下するとの報告があります。

3. 追従性（Sycophancy）

「あなたは絶対に正しい」から始まる回答が多いと指摘されています。批判的な視点が必要な場合は、プロンプトで明示的に指示しましょう。

4. ハルシネーション

学習データのカットオフ以降の情報について、自信を持って誤った回答をすることがあります。ファクトチェックは必須です。

5. 過剰な検閲

フィクションでも暴力描写を拒否するケースがあります。 HuggingFaceには検閲を緩和した「abliterated」版が4,900以上公開されています。

課題はありますが、「無料・オフライン・プライバシー保護」という3つのメリットは強力です。課題を理解した上で、適切な場面で活用するのが賢い使い方でしょう。

まとめ — ローカルAIの民主化はもう始まっている

本記事のポイントをまとめます。

Qwen 3.5-9Bは13倍大きいGPT-OSS-120Bをベンチマークで上回った
Apache 2.0ライセンスで商用利用も自由
Ollamaなら1コマンドで今日から使える
5GB程度のVRAMがあればノートPCでも快適に動作
Apple LLM in a Flashで400Bモデルすら48GB MacBookで動く時代に
課題はあるが、改善は急速に進んでいる

ローカルAIの民主化は、もう始まっています。

まずはOllamaをインストールして、このコマンドを実行してみてください。

ollama run qwen3.5:9b

あなたのノートPCが、AIラボに変わる瞬間を体験できるはずです。

Qwen 3.5入門 — 9Bパラメータで120B超え、ノートPCで動くAIの衝撃

Qwen 3.5入門 — 9Bパラメータで120B超え、ノートPCで動くAIの衝撃

Qwen 3.5とは？ — Alibabaが放つオープンソースAIの全貌

なぜ9Bが120Bに勝てたのか — ベンチマーク徹底解説

今日から試せる！ローカルでQwen 3.5を動かす3つの方法

方法1: Ollama（初心者におすすめ）

方法2: llama.cpp（中級者向け）

方法3: LM Studio（GUI派向け）

VRAM別おすすめモデル

MacBookで400Bモデル？ — Apple「LLM in a Flash」の魔法

知っておくべき課題と限界

まとめ — ローカルAIの民主化はもう始まっている

Claude Code流出で見えた、AIが自律的に動く未来の設計図

Sora終了の真因──AI推論コストの壁が「夢のサービス」を次々と潰している

なぜClaude Codeが選ばれるのか？満足度46%で圧倒的1位の理由

Qwen 3.5入門 — 9Bパラメータで120B超え、ノートPCで動くAIの衝撃

Qwen 3.5とは？ — Alibabaが放つオープンソースAIの全貌

なぜ9Bが120Bに勝てたのか — ベンチマーク徹底解説

今日から試せる！ローカルでQwen 3.5を動かす3つの方法

方法1: Ollama（初心者におすすめ）

方法2: llama.cpp（中級者向け）

方法3: LM Studio（GUI派向け）

VRAM別おすすめモデル

MacBookで400Bモデル？ — Apple「LLM in a Flash」の魔法

知っておくべき課題と限界

まとめ — ローカルAIの民主化はもう始まっている

関連記事

Claude Code流出で見えた、AIが自律的に動く未来の設計図

Sora終了の真因──AI推論コストの壁が「夢のサービス」を次々と潰している

なぜClaude Codeが選ばれるのか？ 満足度46%で圧倒的1位の理由

なぜClaude Codeが選ばれるのか？満足度46%で圧倒的1位の理由