OllamaをWindowsでネイティブ実行する

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

WSLの悩みはもう終わり。 OllamaはWindowsネイティブアプリケーションとして動作するようになりました。NVIDIAまたはAMDグラフィックカードを自動的に検出し、すぐにローカルAI推論を高速化します。

Step 1 はじめに

以前は、WindowsでローカルLLMを実行するには、Windows Subsystem for Linux(WSL)をインストールし、ドライバのパススルー設定に悩まされる必要がありました。現在、OllamaはDirectXとCUDAに直接接続するWindowsネイティブの.exeを提供しています。

Step 2 インストール

  1. ollama.com/download にアクセスします。
  2. Windows をクリックし、.exeインストーラーをダウンロードします。
  3. インストーラーをダブルクリックして実行します。

Ollamaがインストールされ、システムトレイ(タスクバーの右下隅)にアイコンが表示されます。

Step 3 最初のモデルをプル

新しい PowerShell または コマンドプロンプト ウィンドウを開きます。Metaの非常に優れた80億パラメータのモデルをプルしてみましょう。

Terminal
ollama run llama3

次に何が起こるか? - Ollamaがレジストリに接続します。 - 約4.7GBのモデルの重みがローカルのC:\Users\<YourUser>\.ollamaフォルダにダウンロードされます。 - インタラクティブなチャットプロンプトが起動します。

Write a python script to scrape a website と入力すると、PCが即座にコードを生成するのを確認できます。

Step 4 ハードウェアの制限

WindowsのPCは通常、Macのユニファイドメモリとは異なり、ディスクリートGPU(VRAM)に依存しています。AIモデルを高速に実行するには、モデル全体がVRAM内に収まる必要があります。

VRAMの容量 最大モデルサイズ 推奨モデル
6GB〜8GB 約7B〜8B パラメータ Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB〜16GB 約13B〜14B パラメータ Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090) 約30B パラメータ Mixtral (8x7B)

モデルがVRAMの容量を超えた場合、Ollamaは残りのレイヤーを低速なシステムRAM(CPU)に自動的にオフロードします。

Step 5 GPUアクセラレーション

Ollamaは自動的にハードウェアを検出します。 - NVIDIA カードを使用している場合は、CUDAを使用します。 - AMD カードを使用している場合は、ROCmを使用します。

GPUの使用状況を確認するには、タスクマネージャーCtrl + Shift + Esc)を開き、パフォーマンス タブに移動してGPUを選択します。Ollamaに大きなプロンプトを送信し、「専用GPUメモリ」と「3D」コンピュートグラフが100%に急上昇するのを確認してください。

Step 6 ローカルAPI

Ollamaはバックグラウンドで自動的にローカルAPIサーバーを起動します。このエンドポイントをVS Code拡張機能やPythonスクリプトに接続することができます。

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

これであなたのWindows PCは、完全に機能するプライベートなAIサーバーになりました!