Qwen 3.5入門 — 9Bパラメータで120B超え、ノートPCで動くAIの衝撃

「AIを使いたいけど、API料金が気になる」 「社外にデータを出したくない」

そんな悩みを抱えていませんか?

実は今、その常識がひっくり返る出来事が起きています。 たった9B(90億)パラメータのAIモデルが、120B(1200億)パラメータの大型モデルをベンチマークで超えてしまったのです。

しかも、あなたのノートPCで動きます。

本記事では、話題のQwen 3.5の全貌から、今日すぐに試せる具体的な手順まで解説します。 ローカルAIに興味がある方は、ぜひ最後まで読んでください。

Qwen 3.5とは? — Alibabaが放つオープンソースAIの全貌

9Bモデルの衝撃を理解するには、まずQwen 3.5の全体像を押さえましょう。

Qwen 3.5は、中国Alibaba傘下のQwenチームが2026年2〜3月にリリースしたオープンソースAIモデルです。

最大の特徴は、8つのモデルを一挙公開したこと。

  • 小型: 0.8B、2B、4B、9B(dense構造)
  • 中型: 27B(dense)、35B-A3B、122B-A10B(MoE構造)
  • フラグシップ: 397B-A17B(MoE構造)

「MoE(Mixture of Experts)」とは、全パラメータのうち一部だけを動かす仕組みです。 巨大モデルでも効率的に推論できます。

ライセンスはApache 2.0。 商用利用も自由で、誰でもダウンロードして使えます。

対応言語は201言語。 日本語ももちろん含まれています。

Hugging Face、Ollama、ModelScopeで公開済み。 すぐにダウンロード可能です。

なぜ9Bが120Bに勝てたのか — ベンチマーク徹底解説

プロセッサチップの回路基板クローズアップ Photo by BoliviaInteligente on Unsplash

Qwen 3.5の全体像がわかったところで、核心に迫ります。 なぜ9Bという小さなモデルが、13倍以上大きなモデルに勝てたのでしょうか。

具体的な数値を見てみましょう。

Qwen3.5-9B vs GPT-OSS-120B の比較

  • GPQA Diamond(大学院レベルの科学問題): 81.7 vs 80.1
  • MMLU-Pro(総合知識テスト): 82.5 vs 80.8
  • MMMLU(多言語知識テスト): 81.2 vs 78.2

すべてQwen3.5-9Bが上回っています。 パラメータ数は13分の1以下です。

コーディング能力も高水準です。 LiveCodeBench v682.7点を記録しました。

画像理解タスクでも健闘しています。 MMMU-Proでは70.1点を獲得。 GPT-5-Nanoの57.2点を**22.5%**上回りました。

この性能の秘密は、アーキテクチャにあります。 「Gated Delta Networks」という新しい線形アテンション機構を採用しています。 従来のフルアテンションと3:1の比率で組み合わせ、計算効率と性能を両立しました。

ただし、注意点もあります。 ベンチマークは特定のテスト環境での数値です。 実際の複雑なタスクでは、GPT-5.4やClaude Opus 4.6に及ばない場面もあります。 XDA Developersも「ベンチマークだけでモデルを選ぶのは危険」と指摘しています。

今日から試せる!ローカルでQwen 3.5を動かす3つの方法

ネオンライトに照らされたラップトップとコード画面 Photo by Daniil Komov on Unsplash

ベンチマークの凄さを確認したところで、実際に動かしてみましょう。 難易度別に3つの方法を紹介します。

方法1: Ollama(初心者におすすめ)

最も簡単な方法です。

必要なもの: 8GB以上のRAMがあるPC

手順:

  1. Ollama公式サイト(https://ollama.com)からインストール
  2. ターミナルで以下を実行
ollama run qwen3.5:9b

これだけでOKです。 モデルがダウンロードされ、すぐにチャットできます。

Q4量子化版なら約5GBのVRAMで動作します。 RTX 3060(12GB)やM1 Mac(8GB統合メモリ)で快適です。

APIサーバーとしても使えます。 http://localhost:11434 でOpenAI互換APIが立ち上がります。 既存のアプリにもそのまま組み込めます。

方法2: llama.cpp(中級者向け)

より細かい制御がしたい方向けです。

./llama-server -m qwen3.5-9b-q4_k_m.gguf -c 8192 -ngl 60 -p 8080

ポイント:

  • -ngl 60: GPUに60レイヤーをオフロード
  • -c 8192: コンテキスト長8,192トークン
  • thinking(思考)モードも有効化可能

GTX 1080 Tiで毎秒34トークンの速度が報告されています。

方法3: LM Studio(GUI派向け)

コマンドラインが苦手な方におすすめです。

  1. LM Studio(https://lmstudio.ai)をダウンロード
  2. 検索バーで「Qwen 3.5」を検索
  3. 量子化レベルを選んでダウンロード
  4. 「Chat」タブで会話スタート

GUIで直感的に操作でき、モデルの切り替えもワンクリックです。

VRAM別おすすめモデル

  • 4GB以下: Qwen3.5-2B(軽量タスク向け)
  • 6〜8GB: Qwen3.5-9B Q4(ベストバランス)
  • 12GB以上: Qwen3.5-9B Q8(高品質)
  • 24GB以上: Qwen3.5-27B Q4(ヘビーユース)

MacBookで400Bモデル? — Apple「LLM in a Flash」の魔法

小型モデルの動かし方を見てきましたが、さらに驚きの事例を紹介します。

開発者のDan Woods氏が、48GBのMacBook Pro(M3 Max)397Bパラメータのフラグシップモデルを動かすことに成功しました。

ディスク上のサイズは209GB。 しかしアクティブメモリはわずか5.5GB毎秒5.7トークンを生成できます。

秘密は、Appleが2023年に発表した「LLM in a Flash」技術です。

MoEモデルは推論時に全パラメータを使いません。 必要なエキスパートだけをSSDからメモリに読み込みます。 M3 MaxのSSD読み取り速度は毎秒17.5GB。 これがリアルタイム推論を可能にしています。

興味深いのは、エキスパートの起動数を10個から4個に減らしても品質が落ちなかったこと。 Woods氏によると、約5,000行のコードはClaudeが24時間で生成したそうです。

ソースコードはgithub.com/danveloper/flash-moeで公開されています。 M4 Maxなら約8トークン/秒に到達する見込みです。

知っておくべき課題と限界

ここまでQwen 3.5の可能性を見てきましたが、課題も押さえておきましょう。

1. ベンチマークと実用のギャップ

ベンチマークでは120Bを超えますが、複雑な実務タスクでは差が出ます。 データ可視化タスクではGPT-5.4が200点中178点。 Qwen 3.5は163点で、約8%の差があります。

2. コンテキストの劣化

公称では最大256Kトークンに対応しています。 しかし40,000〜50,000トークンを超えると指示追従能力が低下するとの報告があります。

3. 追従性(Sycophancy)

「あなたは絶対に正しい」から始まる回答が多いと指摘されています。 批判的な視点が必要な場合は、プロンプトで明示的に指示しましょう。

4. ハルシネーション

学習データのカットオフ以降の情報について、自信を持って誤った回答をすることがあります。 ファクトチェックは必須です。

5. 過剰な検閲

フィクションでも暴力描写を拒否するケースがあります。 HuggingFaceには検閲を緩和した「abliterated」版が4,900以上公開されています。

課題はありますが、「無料・オフライン・プライバシー保護」という3つのメリットは強力です。 課題を理解した上で、適切な場面で活用するのが賢い使い方でしょう。

まとめ — ローカルAIの民主化はもう始まっている

本記事のポイントをまとめます。

  • Qwen 3.5-9Bは13倍大きいGPT-OSS-120Bをベンチマークで上回った
  • Apache 2.0ライセンスで商用利用も自由
  • Ollamaなら1コマンドで今日から使える
  • 5GB程度のVRAMがあればノートPCでも快適に動作
  • Apple LLM in a Flashで400Bモデルすら48GB MacBookで動く時代に
  • 課題はあるが、改善は急速に進んでいる

ローカルAIの民主化は、もう始まっています。

まずはOllamaをインストールして、このコマンドを実行してみてください。

ollama run qwen3.5:9b

あなたのノートPCが、AIラボに変わる瞬間を体験できるはずです。