ローカルAIとは(クラウドAPIとの違い、プライバシーメリット)
「ローカルAI」とは、ChatGPTやClaude.aiのようなクラウドサービスを使わず、自分のMacの中でLLM(大規模言語モデル)を動かすことです。インターネット接続なしで動作し、入力したデータは一切外部に送信されません。
クラウドAIとの主な違いは以下の通りです。
| 比較項目 | クラウドAI(ChatGPT等) | ローカルAI |
|---|---|---|
| プライバシー | データがサーバーに送信される | 完全にローカル処理 |
| コスト | API利用料(月数千〜数万円) | 電気代のみ(月数百円) |
| 速度 | ネットワーク遅延あり | ハードウェア依存、遅延なし |
| カスタマイズ | 制限あり | モデル・パラメーター自由 |
| オフライン | 不可 | 可能 |
Apple SiliconのMac miniやMac Studioは、Unified MemoryアーキテクチャによりCPUとGPUがメモリを共有します。これにより、NvidiaのGPUがなくても効率的にLLMを動かせるため、ローカルAI用途に非常に向いています。
Ollamaのインストールと使い方
Ollamaはコマンドライン操作でローカルLLMを管理・実行するツールです。Docker感覚でモデルをpull・runでき、エンジニアに特に人気があります。APIサーバーとしても動作するため、自作アプリとの連携も簡単です。
Ollamaのインストール
Homebrewを使う方法と公式サイトからダウンロードする方法があります。
方法1: Homebrewを使う(推奨)
# Homebrewが未インストールの場合は先にインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# Ollamaインストール
brew install ollama方法2: 公式サイトからダウンロード
ollama.com にアクセスし「Download for Mac」をクリック。.dmgファイルをダウンロードしてインストールします。
インストール後、メニューバーにラマのアイコンが表示されれば成功です。
最初のモデルを動かす
ターミナルを開いて以下のコマンドを実行します。初回はモデルのダウンロードが始まります(数分かかります)。
# Llama 3.2 3Bを動かす(メモリ8GB以上で動作)
ollama run llama3.2
# メモリ16GB以上なら7Bモデルも試せる
ollama run llama3.2:7b
# 動作速度を確認するオプション
ollama run llama3.2 --verboseプロンプトが表示されたら日本語で話しかけてみましょう。/bye で終了します。
便利なコマンド一覧
ollama list:インストール済みモデルの一覧ollama pull mistral:モデルをダウンロードollama rm llama3.2:モデルを削除ollama serve:APIサーバーをバックグラウンド起動(ポート11434)
メモリ容量別おすすめモデル一覧
| Unified Memory | おすすめモデル | 用途 | 速度目安 |
|---|---|---|---|
| 8GB | llama3.2:3b, phi3:mini | 軽いQ&A、コード補完 | 20〜40 tok/s |
| 16GB | llama3.1:8b, mistral:7b | 汎用チャット、文書要約 | 25〜45 tok/s |
| 32GB | llama3.1:8b (q8), gemma2:9b | 高品質チャット | 30〜55 tok/s |
| 64GB | llama3.1:70b (q4), mixtral:8x7b | 高精度推論、コード生成 | 10〜25 tok/s |
| 96GB以上 | llama3.1:70b (q8), llama3.3:70b | ほぼGPT-4相当の品質 | 15〜35 tok/s |
LM Studioのインストールと使い方
LM StudioはGUIベースでローカルLLMを管理・チャットできるアプリです。Hugging Faceからモデルを直接ダウンロードして、ブラウザのようなチャット画面で使えます。コマンドラインが苦手な方に特に向いています。
LM Studioのインストール
- lmstudio.ai にアクセスして「Download for Mac」をクリック
- ダウンロードした
.dmgファイルを開き、アプリケーションフォルダにドラッグ - 初回起動時にAppleが「開発元を確認できない」と表示する場合は、「システム設定」→「プライバシーとセキュリティ」から「このまま開く」を選択
起動すると洗練されたUIが表示されます。左サイドバーからモデルの検索・ダウンロード・チャットなどの機能を切り替えられます。
モデルのダウンロードとチャット
- 左サイドバーの「Discover(双眼鏡アイコン)」をクリック
- 検索バーに「llama」「mistral」「gemma」などと入力
- モデルをクリックして詳細画面を開き、「Download」ボタンを押す(サイズに注意:Q4量子化で4〜8GB程度が多い)
- ダウンロード完了後、左サイドバーの「Chat(吹き出しアイコン)」をクリック
- 上部のドロップダウンでダウンロードしたモデルを選択して「Load」
- チャット入力欄が表示されたら使用開始。日本語で話しかけてOK
Ollamaが向く人 vs LM Studioが向く人
| 特徴 | Ollama向き | LM Studio向き |
|---|---|---|
| 操作方法 | コマンドライン派 | GUI派(操作が視覚的) |
| 連携 | API経由で自作アプリと連携したい | 単体で快適にチャットしたい |
| モデル管理 | シンプルなCLIコマンドで完結 | HuggingFaceのモデルを直感的に選べる |
| 自動化 | シェルスクリプトやPythonからAPI呼び出し可 | 主にインタラクティブ利用 |
| Web UI | Open WebUI等を別途インストール | アプリ内に内蔵 |
どちらも同時インストールして使い分けることが可能です。日常のチャットはLM Studio、開発・自動化にはOllama APIを使う、という組み合わせが最も実用的です。
最初に試すべきおすすめモデル3選
数百種類のオープンソースモデルの中から、Mac Clawユーザーに特におすすめのモデルを3つ紹介します。
- Llama 3.2 3B(Meta):
ollama run llama3.2で即試せる入門モデル。8GBメモリでも快適に動作し、日本語もそこそこ理解します。まず「ローカルAIが動く」体験をするのに最適。 - Mistral 7B Instruct(Mistral AI):7Bクラスで最もバランスが良いモデルの一つ。英語コードの生成・説明能力が高く、エンジニア用途に向いています。16GB以上のメモリを持つMacでの第一候補。
- Llama 3.1 70B(Meta):64GB以上のメモリがあれば動かせる高性能モデル。Q4量子化版なら40GBほどのメモリで動作します。実用レベルの推論・コード生成・文書処理が可能で、GPT-3.5相当以上の品質を体感できます。
トラブルシューティング(メモリ不足、モデルが遅い)
ローカルLLMでよく起きる問題と対処法をまとめます。
エラー:「out of memory」「model too large」
選択したモデルがMacのUnified Memoryに収まりきらない場合に発生します。解決策は以下の通りです。
- より小さいモデルを選ぶ(例:70B → 8B → 3B)
- より高い量子化レベル(低精度)のモデルを使う(q8 → q4 → q2)
- 実行中の他のアプリを終了してメモリを解放する
- モデルのパラメーター数 × 0.6 GB がおおよその必要メモリ量の目安
モデルの生成速度が非常に遅い(1 tok/s以下)
通常、Apple SiliconのMacでは3B〜7Bクラスのモデルが15〜50 tok/sで動作します。極端に遅い場合は以下を確認してください。
- OllamaがGPU(Metal)を使っているか確認:
ollama run llama3.2 --verboseでeval rateを確認 - Activity Monitorを開き「GPU」タブでGPU使用率が上がっているか確認
- モデルがRAMではなくスワップ(SSD)にロードされていないか確認:
vm_statコマンドでページングが多い場合はモデルが大きすぎる - Ollamaのバージョンを最新にアップデート:
brew upgrade ollama