laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
WSL 문제는 이제 그만. Ollama가 이제 독립 실행형 애플리케이션으로 Windows에서 네이티브로 실행됩니다. NVIDIA 또는 AMD 그래픽 카드를 자동으로 감지하고 즉시 로컬 AI 추론을 가속화합니다.
Step 1 소개
과거에는 Windows에서 로컬 LLM을 실행하려면 WSL(Windows Subsystem for Linux)을 설치하고 드라이버 패스스루 문제와 씨름해야 했습니다. 이제 Ollama는 DirectX와 CUDA에 직접 연결되는 네이티브 Windows .exe 파일을 제공합니다.
Step 2 설치
- ollama.com/download로 이동합니다.
- Windows를 클릭하고
.exe 설치 파일을 다운로드합니다.
- 설치 파일을 더블 클릭하여 실행합니다.
Ollama가 설치되면 시스템 트레이(작업 표시줄 오른쪽 하단 모서리)에 아이콘이 생성됩니다.
Step 3 첫 번째 모델 가져오기
새 PowerShell 또는 명령 프롬프트 창을 엽니다. Meta의 놀라운 성능을 자랑하는 80억 매개변수 모델을 가져와 보겠습니다.
다음에 일어나는 일:
- Ollama가 레지스트리에 연결합니다.
- 약 4.7GB의 모델 가중치를 로컬 C:\Users\<YourUser>\.ollama 폴더에 다운로드합니다.
- 대화형 채팅 프롬프트로 진입합니다.
이제 Write a python script to scrape a website라고 입력하면 PC가 즉시 코드를 생성하는 것을 확인할 수 있습니다.
Step 4 하드웨어 제한
Windows PC는 일반적으로 Mac의 통합 메모리와 달리 전용 GPU(VRAM)에 의존합니다. AI 모델을 빠르게 실행하려면 모델 전체가 VRAM 안에 들어맞아야 합니다.
| VRAM 용량 |
최대 모델 크기 |
권장 모델 |
| 6GB ~ 8GB |
~7B ~ 8B 매개변수 |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12GB ~ 16GB |
~13B ~ 14B 매개변수 |
Qwen 2.5 (14B), Command R |
| 24GB (RTX 3090/4090) |
~30B 매개변수 |
Mixtral (8x7B) |
모델이 VRAM 용량을 초과하면 Ollama는 나머지 레이어를 훨씬 느린 시스템 RAM(CPU)으로 자동 오프로드합니다.
Step 5 GPU 가속
Ollama는 자동으로 하드웨어를 감지합니다.
- NVIDIA 카드가 있는 경우 CUDA를 사용합니다.
- AMD 카드가 있는 경우 ROCm을 사용합니다.
GPU 사용 여부를 확인하려면 작업 관리자(Ctrl + Shift + Esc)를 열고 성능 탭으로 이동한 후 GPU를 선택합니다. Ollama에 대용량 프롬프트를 전송하고 "전용 GPU 메모리"와 "3D" 연산 그래프가 100%로 급등하는 것을 확인합니다.
Step 6 로컬 API
Ollama는 백그라운드에서 로컬 API 서버를 자동으로 실행합니다. 이 엔드포인트를 VS Code 확장 프로그램이나 Python 스크립트에 연결할 수 있습니다.
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
이제 여러분의 Windows PC는 완전히 기능하는 프라이빗 AI 서버가 되었습니다!