laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linux é o lar nativo do aprendizado de máquina. Executar o Ollama no Ubuntu ou Debian oferece a latência absolutamente mais baixa e a melhor integração possível de drivers para GPUs NVIDIA e AMD.
Step 1 Introdução
O Ollama fornece um script de instalação com 1 clique para Linux que não apenas baixa o binário, mas também configura automaticamente um serviço em segundo plano via systemd. Isso significa que sua API de IA local iniciará automaticamente quando você reiniciar seu servidor ou desktop.
Step 2 Pré-requisitos
Antes de instalar o Ollama, certifique-se de que os drivers da sua GPU estejam instalados corretamente.
Para GPUs NVIDIA:
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
Para GPUs AMD:
O Ollama oferece suporte a placas gráficas AMD por meio da plataforma ROCm. Certifique-se de ter os drivers amdgpu mais recentes instalados para sua distribuição específica.
Step 3 Instalação
O script de instalação oficial cuida de tudo para você. Execute isso no seu terminal:
Terminal
curl -fsSL https://ollama.com/install.sh | sh
Durante a instalação, o script detectará automaticamente sua GPU NVIDIA ou AMD e baixará as bibliotecas de aceleração apropriadas.
Step 4 Gerenciando o Serviço
O Ollama é executado como um daemon. Você pode gerenciá-lo usando os comandos padrão do systemd:
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 5 Baixando e Executando Modelos
Assim que o serviço estiver ativo, você pode baixar seu primeiro modelo e entrar na interface de chat. Vamos usar o Llama 3 da Meta:
Para sair do prompt interativo, digite /bye ou pressione Ctrl + d.
Step 6 Limites de Hardware
Como o Linux tem uma sobrecarga de sistema operacional muito baixa, você consegue utilizar modelos maiores na sua VRAM em comparação ao Windows.
| Sua VRAM |
Tamanho Máximo do Modelo |
Modelos Recomendados |
| 8GB |
~8B parâmetros |
Llama 3 (8B), Mistral (7B) |
| 16GB |
~14B parâmetros |
Qwen 2.5 (14B), Command R |
| 24GB |
~30B parâmetros |
Mixtral (8x7B) |
Se você exceder sua VRAM, o Ollama descarregará graciosamente as camadas restantes para a RAM do sistema, embora a velocidade de geração caia significativamente.
Step 7 Acesso à Rede
Por padrão, o Ollama escuta apenas em 127.0.0.1 (localhost). Se você estiver executando o Linux em um servidor headless e quiser acessar a API a partir do seu MacBook ou PC com Windows, precisará vinculá-lo ao IP da sua rede local.
Edite o serviço do systemd:
Terminal
sudo systemctl edit ollama
Adicione as seguintes linhas:
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Reinicie o serviço:
Terminal
sudo systemctl restart ollama
Seu servidor de IA com Linux agora está acessível de qualquer lugar na sua rede local!