laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linuxは機械学習のネイティブな本拠地です。UbuntuまたはDebianでOllamaを実行することで、絶対的な最低レイテンシと、NVIDIAおよびAMD GPUに対する最高のドライバー統合が得られます。
Step 1 はじめに
Ollamaは、Linux向けにワンクリックのインストールスクリプトを提供しています。このスクリプトはバイナリをダウンロードするだけでなく、systemdバックグラウンドサービスを自動的に設定します。これにより、サーバーまたはデスクトップを起動した際に、ローカルAI APIが自動的に起動するようになります。
Step 2 前提条件
Ollamaをインストールする前に、GPUドライバーが正しくインストールされていることを確認してください。
NVIDIA GPUの場合:
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
AMD GPUの場合:
OllamaはROCmプラットフォームを介してAMDグラフィックスカードをサポートしています。お使いのディストリビューションに対応した最新のamdgpuドライバーがインストールされていることを確認してください。
Step 3 インストール
公式インストールスクリプトがすべてを自動的に処理します。ターミナルで以下を実行してください:
Terminal
curl -fsSL https://ollama.com/install.sh | sh
インストール中、スクリプトはNVIDIAまたはAMD GPUを自動的に検出し、適切なアクセラレーションライブラリをダウンロードします。
Step 4 サービスの管理
Ollamaはデーモンとして動作します。標準的なsystemdコマンドを使用して管理できます:
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 5 モデルのプルと実行
サービスが起動したら、最初のモデルをプルしてチャットインターフェースに入ることができます。MetaのLlama 3を使ってみましょう:
インタラクティブプロンプトを終了するには、/byeと入力するか、Ctrl + dを押してください。
Step 6 ハードウェアの制限
LinuxはOSのオーバーヘッドが非常に低いため、Windowsと比較してより大きなモデルをVRAMに収めることができます。
| VRAMの容量 |
最大モデルサイズ |
推奨モデル |
| 8GB |
~8B パラメーター |
Llama 3 (8B), Mistral (7B) |
| 16GB |
~14B パラメーター |
Qwen 2.5 (14B), Command R |
| 24GB |
~30B パラメーター |
Mixtral (8x7B) |
VRAMを超過した場合、Ollamaはグレースフルに残りのレイヤーをシステムRAMにオフロードしますが、生成速度は大幅に低下します。
Step 7 ネットワークアクセス
デフォルトでは、Ollamaは127.0.0.1(ローカルホスト)のみをリッスンします。ヘッドレスサーバー上でLinuxを実行しており、MacBookやWindows PCからAPIにアクセスしたい場合は、ローカルネットワークのIPアドレスにバインドする必要があります。
systemdサービスを編集します:
Terminal
sudo systemctl edit ollama
以下の行を追加します:
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
サービスを再起動します:
Terminal
sudo systemctl restart ollama
これで、LinuxのAIサーバーはローカルネットワーク上のどこからでもアクセス可能になります!