laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Linux는 머신 러닝의 본고장입니다. Ubuntu 또는 Debian에서 Ollama를 실행하면 절대적으로 낮은 레이턴시와 NVIDIA 및 AMD GPU에 대한 최상의 드라이버 통합을 제공받을 수 있습니다.
Step 1 소개
Ollama는 Linux용 원클릭 설치 스크립트를 제공합니다. 이 스크립트는 바이너리를 다운로드할 뿐만 아니라 systemd 백그라운드 서비스를 자동으로 구성합니다. 즉, 서버나 데스크탑을 부팅할 때 로컬 AI API가 자동으로 시작됩니다.
Step 2 사전 요구 사항
Ollama를 설치하기 전에 GPU 드라이버가 올바르게 설치되어 있는지 확인하십시오.
NVIDIA GPU의 경우:
Terminal
# Install proprietary NVIDIA drivers and CUDA toolkit
sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
nvidia-smi # Verify drivers are working
AMD GPU의 경우:
Ollama는 ROCm 플랫폼을 통해 AMD 그래픽 카드를 지원합니다. 해당 배포판에 맞는 최신 amdgpu 드라이버가 설치되어 있는지 확인하십시오.
Step 3 설치
공식 설치 스크립트가 모든 작업을 처리합니다. 터미널에서 다음을 실행하십시오:
Terminal
curl -fsSL https://ollama.com/install.sh | sh
설치 중에 스크립트는 자동으로 NVIDIA 또는 AMD GPU를 감지하고 적절한 가속 라이브러리를 다운로드합니다.
Step 4 서비스 관리
Ollama는 데몬으로 실행됩니다. 표준 systemd 명령어를 사용하여 관리할 수 있습니다:
Terminal
# Check if Ollama is running
sudo systemctl status ollama
# Restart the service (useful after pulling large models or updating drivers)
sudo systemctl restart ollama
# View live server logs
journalctl -u ollama -f
Step 5 모델 풀링 및 실행
서비스가 활성화되면 첫 번째 모델을 풀링하고 채팅 인터페이스로 진입할 수 있습니다. Meta의 Llama 3를 사용해 보겠습니다:
대화형 프롬프트를 종료하려면 /bye를 입력하거나 Ctrl + d를 누르십시오.
Step 6 하드웨어 한계
Linux는 OS 오버헤드가 매우 낮기 때문에 Windows에 비해 더 큰 모델을 VRAM에 수용할 수 있습니다.
| VRAM 용량 |
최대 모델 크기 |
권장 모델 |
| 8GB |
~8B 파라미터 |
Llama 3 (8B), Mistral (7B) |
| 16GB |
~14B 파라미터 |
Qwen 2.5 (14B), Command R |
| 24GB |
~30B 파라미터 |
Mixtral (8x7B) |
VRAM을 초과할 경우, Ollama는 나머지 레이어를 시스템 RAM으로 자동 오프로드합니다. 단, 이 경우 생성 속도가 현저히 저하됩니다.
Step 7 네트워크 접근
기본적으로 Ollama는 127.0.0.1 (로컬호스트)에서만 수신 대기합니다. 헤드리스 서버에서 Linux를 실행 중이며 MacBook 또는 Windows PC에서 API에 접근하려는 경우, 로컬 네트워크 IP에 바인딩해야 합니다.
systemd 서비스를 편집하십시오:
Terminal
sudo systemctl edit ollama
다음 줄을 추가하십시오:
Terminal
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
서비스를 재시작하십시오:
Terminal
sudo systemctl restart ollama
이제 로컬 네트워크 어디서든 Linux AI 서버에 접근할 수 있습니다!