OllamaをWindowsでネイティブ実行する

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

WSLの悩みはもう終わり。 OllamaはWindowsネイティブアプリケーションとして動作するようになりました。NVIDIAまたはAMDグラフィックカードを自動的に検出し、すぐにローカルAI推論を高速化します。

Step 1 はじめに

以前は、WindowsでローカルLLMを実行するには、Windows Subsystem for Linux（WSL）をインストールし、ドライバのパススルー設定に悩まされる必要がありました。現在、OllamaはDirectXとCUDAに直接接続するWindowsネイティブの.exeを提供しています。

Step 2 インストール

ollama.com/download にアクセスします。
Windows をクリックし、.exeインストーラーをダウンロードします。
インストーラーをダブルクリックして実行します。

Ollamaがインストールされ、システムトレイ（タスクバーの右下隅）にアイコンが表示されます。

Step 3 最初のモデルをプル

新しい PowerShell または コマンドプロンプト ウィンドウを開きます。Metaの非常に優れた80億パラメータのモデルをプルしてみましょう。

Terminal

ollama run llama3

次に何が起こるか？ - Ollamaがレジストリに接続します。 - 約4.7GBのモデルの重みがローカルのC:\Users\<YourUser>\.ollamaフォルダにダウンロードされます。 - インタラクティブなチャットプロンプトが起動します。

Write a python script to scrape a website と入力すると、PCが即座にコードを生成するのを確認できます。

Step 4 ハードウェアの制限

WindowsのPCは通常、Macのユニファイドメモリとは異なり、ディスクリートGPU（VRAM）に依存しています。AIモデルを高速に実行するには、モデル全体がVRAM内に収まる必要があります。

VRAMの容量	最大モデルサイズ	推奨モデル
6GB〜8GB	約7B〜8B パラメータ	Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB〜16GB	約13B〜14B パラメータ	Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090)	約30B パラメータ	Mixtral (8x7B)

モデルがVRAMの容量を超えた場合、Ollamaは残りのレイヤーを低速なシステムRAM（CPU）に自動的にオフロードします。

Step 5 GPUアクセラレーション

Ollamaは自動的にハードウェアを検出します。 - NVIDIA カードを使用している場合は、CUDAを使用します。 - AMD カードを使用している場合は、ROCmを使用します。

GPUの使用状況を確認するには、タスクマネージャー（Ctrl + Shift + Esc）を開き、パフォーマンス タブに移動してGPUを選択します。Ollamaに大きなプロンプトを送信し、「専用GPUメモリ」と「3D」コンピュートグラフが100%に急上昇するのを確認してください。

Step 6 ローカルAPI

Ollamaはバックグラウンドで自動的にローカルAPIサーバーを起動します。このエンドポイントをVS Code拡張機能やPythonスクリプトに接続することができます。

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

これであなたのWindows PCは、完全に機能するプライベートなAIサーバーになりました！

Continue Reading

Performance