Home chevron_right Windows Guides chevron_right OllamaをWindowsでネイティブ実行する OllamaをWindowsでネイティブ実行する laptop_mac macOS Sonoma Intermediate schedule 8 min read by Alex Rivera • May 14, 2024 WSLの悩みはもう終わり。 OllamaはWindowsネイティブアプリケーションとして動作するようになりました。NVIDIAまたはAMDグラフィックカードを自動的に検出し、すぐにローカルAI推論を高速化します。 Step 1 はじめに 以前は、WindowsでローカルLLMを実行するには、Windows Subsystem for Linux(WSL)をインストールし、ドライバのパススルー設定に悩まされる必要がありました。現在、OllamaはDirectXとCUDAに直接接続するWindowsネイティブの.exeを提供しています。 Step 2 インストール ollama.com/download にアクセスします。 Windows をクリックし、.exeインストーラーをダウンロードします。 インストーラーをダブルクリックして実行します。 Ollamaがインストールされ、システムトレイ(タスクバーの右下隅)にアイコンが表示されます。 Step 3 最初のモデルをプル 新しい PowerShell または コマンドプロンプト ウィンドウを開きます。Metaの非常に優れた80億パラメータのモデルをプルしてみましょう。 Terminalcontent_copyCopyollama run llama3 次に何が起こるか? - Ollamaがレジストリに接続します。 - 約4.7GBのモデルの重みがローカルのC:\Users\<YourUser>\.ollamaフォルダにダウンロードされます。 - インタラクティブなチャットプロンプトが起動します。 Write a python script to scrape a website と入力すると、PCが即座にコードを生成するのを確認できます。 Step 4 ハードウェアの制限 WindowsのPCは通常、Macのユニファイドメモリとは異なり、ディスクリートGPU(VRAM)に依存しています。AIモデルを高速に実行するには、モデル全体がVRAM内に収まる必要があります。 VRAMの容量 最大モデルサイズ 推奨モデル 6GB〜8GB 約7B〜8B パラメータ Llama 3 (8B), Mistral (7B), Gemma (2B) 12GB〜16GB 約13B〜14B パラメータ Qwen 2.5 (14B), Command R 24GB (RTX 3090/4090) 約30B パラメータ Mixtral (8x7B) モデルがVRAMの容量を超えた場合、Ollamaは残りのレイヤーを低速なシステムRAM(CPU)に自動的にオフロードします。 Step 5 GPUアクセラレーション Ollamaは自動的にハードウェアを検出します。 - NVIDIA カードを使用している場合は、CUDAを使用します。 - AMD カードを使用している場合は、ROCmを使用します。 GPUの使用状況を確認するには、タスクマネージャー(Ctrl + Shift + Esc)を開き、パフォーマンス タブに移動してGPUを選択します。Ollamaに大きなプロンプトを送信し、「専用GPUメモリ」と「3D」コンピュートグラフが100%に急上昇するのを確認してください。 Step 6 ローカルAPI Ollamaはバックグラウンドで自動的にローカルAPIサーバーを起動します。このエンドポイントをVS Code拡張機能やPythonスクリプトに接続することができます。 Terminalcontent_copyCopycurl http://localhost:11434/api/generate -d '{ "model": "llama3", "prompt": "Why is the sky blue?", "stream": false }' これであなたのWindows PCは、完全に機能するプライベートなAIサーバーになりました! Continue Reading Performance Mistral 7B vs Llama 3 on Apple Silicon Tools Best GUI clients for Local LLMs Advanced Quantization 101: Speed up your Inference