ローカルLLMとメモリの基本 — なぜメモリが重要か
ローカルLLM(大規模言語モデル)を動かすにあたって、最も重要なハードウェアスペックのひとつがメモリ(RAM)です。LLMはテキストを生成するたびに、モデルの「重み(weights)」と呼ばれる巨大なデータを読み出す必要があります。この重みデータは全てメモリ上に展開されている必要があるため、モデルのサイズよりもメモリ容量が小さい場合、LLMはそもそも動作しません。
クラウドのAI API(OpenAI、Anthropicなど)を使う場合、メモリはサービス提供側のサーバーが持っているため、ユーザーは意識する必要がありません。しかし、OpenClawやOllamaでローカル実行する場合は、あなたのマシンのメモリが直接LLMの動作可否を決定します。
さらにApple Siliconでは、CPUとGPUが同一のメモリ(Unified Memory)を共有しています。これはWindowsのようにCPUメモリとGPUメモリが分離している構成とは根本的に異なります。Mac miniのメモリはそのままGPUメモリとして機能するため、MacのRAMはNvidiaのVRAMと等価に扱えます。これがApple Siliconがローカル推論に強い最大の理由です。
モデルサイズ別の必要メモリ量
モデルサイズと量子化レベルによって、必要なメモリ量は大きく変わります。以下の表で確認しましょう。
| パラメータ数 | 代表モデル | Q4量子化(推奨) | Q8量子化 | Float16(無圧縮) | 最低推奨メモリ |
|---|---|---|---|---|---|
| 3B | Gemma 3 3B、Phi-4-mini | 約2GB | 約3.5GB | 約6GB | 8GB |
| 7B | Llama 3.1 8B、Mistral-7B、Qwen2.5-7B | 約4.5GB | 約8GB | 約14GB | 16GB |
| 13B | Llama-2-13B、Phi-3-medium | 約8GB | 約14GB | 約26GB | 16〜24GB |
| 30B | Mixtral-8x7B、Qwen2.5-32B | 約20GB | 約34GB | 約60GB | 32GB |
| 70B | Llama 3.1 70B、Qwen2.5-72B | 約40GB | 約75GB | 約140GB | 64GB |
| 405B | Llama 3.1 405B | 約230GB | — | — | 128GB以上 |
「最低推奨メモリ」はモデルを動かすだけでなく、OSや他のアプリが使うメモリ(通常4〜6GB程度)を含めた目安です。例えば7Bモデル(Q4)は4.5GBですが、OSが4GB使えば合計8.5GBになるため、8GBマシンではスワップ(ディスク上のメモリ代替)が発生し、速度が激遅になります。
Apple Silicon Unified Memoryの特殊性
Apple SiliconのUnified Memoryは、一般的なPCのメモリとは根本的に異なる設計です。理解しておくべきポイントを整理します。
メモリ帯域幅がボトルネックになる
LLM推論の速度を決定するのは、メモリ容量よりもメモリ帯域幅(GB/s)です。M1(68 GB/s)とM1 Max(400 GB/s)では、同じ16GBのメモリを積んでいても推論速度が約6倍異なります。これはM1 Maxの方がより速いペースでモデル重みを読み出せるためです。チップのグレード選びでは、Max/Ultra/Proの違いに注目してください。
OSとLLMがメモリを共有する
Unified Memoryは全てのアプリが共有します。macOSは通常4〜6GBを使用し、Chrome(タブが多いと10GB以上)やXcodeなどの重いアプリが動いているとさらに消費します。LLMを動かす際は他のメモリ消費アプリをなるべく閉じることをお勧めします。特にメモリ16GBの場合は、LLM実行中はブラウザタブを最小限にしてください。
量子化(Q4/Q8)で必要メモリを減らす
量子化(Quantization)とは、モデルの重みデータを圧縮する技術です。元のFloat32データ(32ビット浮動小数点)をより少ないビット数に変換することで、ファイルサイズとメモリ使用量を削減します。
- Q4(4ビット量子化):元のサイズの約1/8。品質の低下は軽微で、実用上ほとんど差が感じられない。最もよく使われる
- Q5:Q4とQ8の中間。Q4よりわずかに品質が高い
- Q8(8ビット量子化):元のサイズの約1/4。品質はほぼ無損失に近いが、メモリ消費が多い
- Float16(fp16):量子化なし。最高品質だが消費メモリが最大
Ollamaでモデルをダウンロードする場合、デフォルトでQ4_K_M(Q4の改良版)が選ばれます。実用上、Q4でほとんどのタスクは十分に対応できます。「クリエイティブな文章生成」や「コーディング」などの精度が重要なタスクにはQ8を使うという使い分けも有効です。
メモリ32GBと64GBの使用感の違い
「32GBで十分か、64GBにすべきか」はよく聞かれる質問です。用途によって判断が分かれます。
| 観点 | 32GB | 64GB |
|---|---|---|
| 7B〜13Bモデル | 快適に動作 | 快適に動作(余裕あり) |
| 30B〜34Bモデル(Q4) | 動作可能(余裕なし) | 快適に動作 |
| 70Bモデル(Q4) | 動作不可 | 動作可能(ギリギリ) |
| 複数モデル並列 | 1〜2モデルのみ | 2〜3モデル同時 |
| OpenClaw マルチエージェント | 軽量構成のみ | 本格的な構成が可能 |
| 将来のモデル対応 | 3年程度 | 5年以上 |
結論として、日常的なAI作業(コーディング補助、文章生成)には32GBで十分です。しかし、70Bクラスの高性能モデルを試したい、OpenClawのマルチエージェント構成を本格運用したい、将来にわたって最新モデルに対応したい、という方には64GB以上を強くお勧めします。
結論:何GB買えばいいか
用途別の推奨メモリをまとめます。
- AIを試してみたいだけ(入門):16GB。7Bモデルが動き、Ollamaの基本的な使い方が学べる
- 日常的にローカルAIを使いたい:32GB。13〜30BモデルをQ4で動かせる。OpenClawの基本的な使用に十分
- 本格的なAI開発・マルチエージェント構成:64GB。70Bモデルも動き、複数モデルの並列処理が可能
- AI研究・フル品質での推論・商用サーバー:96〜192GB。量子化なしのモデルや超大規模モデルに対応
Mac Clawでは、メモリ容量を絞って商品を検索できます。商品一覧で条件を指定して理想のMacを探してみてください。