완벽 가이드: Mac M3에서 Ollama 실행하기

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

당신은 이미 지구상에서 가장 강력한 로컬 AI 머신 중 하나를 소유하고 있습니다. 기본 MacBook Pro M3, MacBook Pro M3 Max, 또는 Mac Studio를 사용하고 있든 상관없이 — 이 가이드는 Ollama를 통해 그 잠재력을 최대한 발휘하는 방법을 알려드립니다. 클라우드도 없고, API 비용도 없습니다. 오직 순수하고 프라이빗한 지능만 있습니다.

Step 1 소개

Ollama를 사용하려면 macOS 11 Big Sur 이상이 필요합니다. 하지만 최적의 Apple Silicon GPU 가속과 최상의 Metal Performance Shaders(MPS) 지원을 위해서는 macOS 14 Sonoma 이상을 실행하는 것이 좋습니다.

우리는 macOS 터미널을 사용할 것입니다. Cmd + Space를 누르고 "Terminal"을 입력하거나, iTerm2 또는 Warp와 같은 현대적인 대안을 사용하세요.

Step 2 Ollama 설치

Mac에 Ollama를 설치하는 방법은 두 가지입니다: 공식 macOS GUI 설치 프로그램 또는 Homebrew(macOS용 패키지 매니저). Homebrew를 강력히 추천합니다. 업데이트가 매우 간편하기 때문입니다.

이미 Homebrew가 설치되어 있다면, 터미널을 열고 다음을 실행하세요:

Terminal

brew install ollama

설치가 완료되면, 명령을 수신할 수 있도록 Ollama 백그라운드 서비스를 시작하세요:

Terminal

ollama serve

(참고: 이 터미널 창을 열어두거나, 부팅 시 백그라운드에서 자동으로 실행되도록 brew services start ollama를 실행하세요).

Step 3 첫 번째 모델 다운로드

Ollama를 사용하면 Docker 컨테이너를 가져오는 것만큼 쉽게 대규모 언어 모델(LLM)을 다운로드할 수 있습니다.

Meta의 Llama 3(80억 파라미터)부터 시작하겠습니다. 빠르고, 매우 유능하며, 모든 M3 Mac의 메모리에 완벽하게 맞습니다. 새 터미널 창을 열고 다음을 실행하세요:

Terminal

ollama run llama3

다음에 무슨 일이 일어나나요? - Ollama가 레지스트리에 연결됩니다. - 4.7GB 모델 가중치를 로컬 드라이브에 다운로드합니다. - 대화형 채팅 프롬프트로 진입합니다.

이제 Write a python script to scrape a website를 입력하고, 로컬 Mac이 완전히 오프라인 상태에서 즉시 코드를 생성하는 것을 확인하세요.

Step 4 하드웨어 및 RAM 한계

왜 Apple Silicon Mac이 AI에 이렇게 뛰어날까요? 바로 통합 메모리(Unified Memory) 덕분입니다.

일반 PC에는 시스템 RAM과 그래픽 RAM(GPU의 VRAM)이 따로 존재합니다. AI 모델을 빠르게 실행하려면 모델 전체가 VRAM 안에 들어가야 합니다. 하지만 M3 Mac에서는 CPU와 GPU가 동일한 메모리 풀을 공유합니다. Mac에 36GB의 통합 메모리가 있다면, GPU가 그 전체에 접근할 수 있습니다!

다음은 Mac의 RAM에 따라 실행할 수 있는 모델을 정리한 표입니다:

Mac의 RAM	최대 모델 크기	추천 모델	비고
8GB (기본 M3)	~70억~80억 파라미터	Llama 3 (8B), Mistral (7B), Gemma (2B)	메모리 스와핑을 방지하려면 다른 앱을 종료하세요.
16GB / 18GB	~130억~140억 파라미터	Qwen 2.5 (14B), Command R	최적의 구간입니다. Llama 3 (8B)를 매우 빠르게 실행할 수 있습니다.
36GB / 64GB	~300억~700억 파라미터	Mixtral (8x7B), Llama 3 (70B at Q2)	데스크톱급 AI를 네이티브로 실행합니다.
128GB+	~1200억+ 파라미터	Llama 3 (70B Q8), Command R+	개인 슈퍼컴퓨터를 소유하고 있습니다.

Step 5 성능 최적화

Ollama가 실제로 M3의 GPU를 사용하고 있는지, 아니면 느린 CPU로 폴백하고 있는지 어떻게 알 수 있을까요? 수학적으로 확인해 봅시다.

Mac에서 활동 모니터를 여세요 (Cmd + Space -> "활동 모니터").
Cmd + 4를 눌러 GPU 기록 창을 여세요.
해당 창을 화면에 띄워둔 상태로, ollama run llama3가 실행 중인 터미널로 돌아가세요.
대용량 프롬프트를 입력하세요: Write a 1000 word essay about the history of artificial intelligence.

GPU 기록 그래프를 지켜보세요. GPU 사용률이 90~100%에 달하는 크고 지속적인 급등을 확인할 수 있을 것입니다. 이 현상이 보인다면, Apple의 Metal 가속이 완벽하게 작동하고 있다는 의미입니다!

Step 6 로컬 API 노출하기

터미널도 훌륭하지만, 멋진 웹 인터페이스를 사용하거나 로컬 모델을 직접 개발 중인 앱에 통합하고 싶다면 어떻게 해야 할까요?

Ollama는 기본적으로 로컬 API 서버를 실행합니다. 브라우저를 열고 다음 주소로 이동하세요: http://localhost:11434

이제 OpenAI API와 동일한 방식으로 curl 또는 Python을 통해 이 API를 호출할 수 있습니다:

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

이제 Mac M3를 프라이빗 오프라인 AI 서버로 성공적으로 전환했습니다. 데이터는 절대 내 기기 밖으로 나가지 않으며, API 비용도 전혀 들지 않습니다.

Continue Reading

Performance

완벽 가이드: Mac M3에서 Ollama 실행하기

Step 1 소개

Step 2 Ollama 설치

Step 3 첫 번째 모델 다운로드

Step 4 하드웨어 및 RAM 한계

Step 5 성능 최적화

Step 6 로컬 API 노출하기

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference