Le Guide Ultime : Exécuter Ollama sur Mac M3

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Vous possédez déjà l'une des machines d'IA locale les plus puissantes de la planète. Que vous utilisiez un MacBook Pro M3 de base, un MacBook Pro M3 Max, ou un Mac Studio — ce guide vous apprendra à en exploiter tout le potentiel avec Ollama. Pas de cloud. Pas de factures d'API. Juste une intelligence brute et privée.

Introduction

Ollama requiert macOS 11 Big Sur ou ultérieur. Cependant, pour une accélération GPU Apple Silicon optimale et le meilleur support des Metal Performance Shaders (MPS), vous devriez utiliser macOS 14 Sonoma ou une version ultérieure.

Nous utiliserons le Terminal de macOS. Appuyez sur Cmd + Space et tapez "Terminal", ou utilisez une alternative moderne comme iTerm2 ou Warp.

Step 1 Installation d'Ollama

Vous disposez de deux options pour installer Ollama sur votre Mac : l'installateur graphique officiel macOS ou Homebrew (le gestionnaire de paquets pour macOS). Nous recommandons vivement Homebrew car il rend les mises à jour remarquablement simples.

Si Homebrew est déjà installé, ouvrez votre terminal et exécutez :

Terminal

brew install ollama

Une fois installé, démarrez le service en arrière-plan d'Ollama afin qu'il puisse écouter les commandes :

Terminal

ollama serve

(Remarque : Gardez cette fenêtre de terminal ouverte, ou exécutez brew services start ollama pour qu'il tourne silencieusement en arrière-plan au démarrage).

Step 2 Téléchargement de Votre Premier Modèle

Ollama rend le téléchargement d'un Large Language Model (LLM) aussi simple que de tirer une image Docker.

Nous commencerons avec Llama 3 de Meta (8B paramètres). Il est rapide, hautement performant, et s'intègre parfaitement dans la mémoire de tout Mac M3. Ouvrez une nouvelle fenêtre de terminal et exécutez :

Terminal

ollama run llama3

Que se passe-t-il ensuite ? - Ollama se connecte au registre. - Il télécharge les poids du modèle (4,7 Go) sur votre disque local. - Il vous place dans une invite de discussion interactive.

Vous pouvez maintenant taper : Write a python script to scrape a website et regarder votre Mac local générer du code instantanément, en mode entièrement hors ligne.

Step 3 Limites Matérielles et de Mémoire RAM

Pourquoi les Mac Apple Silicon sont-ils si performants en IA ? La Mémoire Unifiée.

Sur un PC, vous disposez de RAM système et de RAM graphique (VRAM sur le GPU). Pour exécuter un modèle d'IA rapidement, celui-ci doit tenir entièrement dans la VRAM. Mais sur un Mac M3, le CPU et le GPU partagent le même pool de mémoire. Si vous disposez d'un Mac avec 36 Go de Mémoire Unifiée, votre GPU peut y accéder en totalité !

Voici précisément ce que vous pouvez exécuter en fonction de la RAM de votre Mac :

RAM de votre Mac	Taille Maximale du Modèle	Modèles Recommandés	Notes
8 Go (M3 de base)	~7B à 8B paramètres	Llama 3 (8B), Mistral (7B), Gemma (2B)	Fermez les autres applications pour éviter le swap mémoire.
16 Go / 18 Go	~13B à 14B paramètres	Qwen 2.5 (14B), Command R	La configuration idéale. Exécutez Llama 3 (8B) à une vitesse fulgurante.
36 Go / 64 Go	~30B à 70B paramètres	Mixtral (8x7B), Llama 3 (70B en Q2)	IA de niveau desktop en natif.
128 Go+	~120B+ paramètres	Llama 3 (70B Q8), Command R+	Vous possédez un superordinateur personnel.

Step 4 Optimisation des Performances

Comment savoir si Ollama utilise réellement le GPU de votre M3 et ne se rabat pas sur le CPU lent ? Vérifions-le de manière empirique.

Ouvrez le Moniteur d'activité sur votre Mac (Cmd + Space -> "Moniteur d'activité").
Appuyez sur Cmd + 4 pour ouvrir la fenêtre Historique GPU.
Gardez cette fenêtre visible, et retournez dans votre terminal exécutant ollama run llama3.
Donnez-lui une requête massive : Write a 1000 word essay about the history of artificial intelligence.

Observez le graphique de l'Historique GPU. Vous devriez constater un pic massif et soutenu, poussant votre GPU à 90-100 % d'utilisation. Si vous observez cela, l'accélération Metal d'Apple fonctionne parfaitement !

Step 5 Exposition de l'API Locale

Le terminal est excellent, mais que faire si vous souhaitez utiliser une interface web élégante ou intégrer votre modèle local dans une application en cours de développement ?

Ollama exécute un serveur API local par défaut. Ouvrez un navigateur et accédez à : http://localhost:11434

Vous pouvez désormais interroger cette API via curl ou Python, exactement comme l'API OpenAI :

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Vous avez réussi à transformer votre Mac M3 en un serveur d'IA privé et hors ligne. Vos données ne quittent jamais votre machine, et vous ne payez aucun frais d'API.