laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Vous possédez déjà l'une des machines d'IA locale les plus puissantes de la planète. Que vous utilisiez un MacBook Pro M3 de base, un MacBook Pro M3 Max, ou un Mac Studio — ce guide vous apprendra à en exploiter tout le potentiel avec Ollama. Pas de cloud. Pas de factures d'API. Juste une intelligence brute et privée.
Introduction
Ollama requiert macOS 11 Big Sur ou ultérieur. Cependant, pour une accélération GPU Apple Silicon optimale et le meilleur support des Metal Performance Shaders (MPS), vous devriez utiliser macOS 14 Sonoma ou une version ultérieure.
Nous utiliserons le Terminal de macOS. Appuyez sur Cmd + Space et tapez "Terminal", ou utilisez une alternative moderne comme iTerm2 ou Warp.
Step 1 Installation d'Ollama
Vous disposez de deux options pour installer Ollama sur votre Mac : l'installateur graphique officiel macOS ou Homebrew (le gestionnaire de paquets pour macOS). Nous recommandons vivement Homebrew car il rend les mises à jour remarquablement simples.
Si Homebrew est déjà installé, ouvrez votre terminal et exécutez :
Une fois installé, démarrez le service en arrière-plan d'Ollama afin qu'il puisse écouter les commandes :
(Remarque : Gardez cette fenêtre de terminal ouverte, ou exécutez brew services start ollama pour qu'il tourne silencieusement en arrière-plan au démarrage).
Step 2 Téléchargement de Votre Premier Modèle
Ollama rend le téléchargement d'un Large Language Model (LLM) aussi simple que de tirer une image Docker.
Nous commencerons avec Llama 3 de Meta (8B paramètres). Il est rapide, hautement performant, et s'intègre parfaitement dans la mémoire de tout Mac M3. Ouvrez une nouvelle fenêtre de terminal et exécutez :
Que se passe-t-il ensuite ?
- Ollama se connecte au registre.
- Il télécharge les poids du modèle (4,7 Go) sur votre disque local.
- Il vous place dans une invite de discussion interactive.
Vous pouvez maintenant taper : Write a python script to scrape a website et regarder votre Mac local générer du code instantanément, en mode entièrement hors ligne.
Step 3 Limites Matérielles et de Mémoire RAM
Pourquoi les Mac Apple Silicon sont-ils si performants en IA ? La Mémoire Unifiée.
Sur un PC, vous disposez de RAM système et de RAM graphique (VRAM sur le GPU). Pour exécuter un modèle d'IA rapidement, celui-ci doit tenir entièrement dans la VRAM. Mais sur un Mac M3, le CPU et le GPU partagent le même pool de mémoire. Si vous disposez d'un Mac avec 36 Go de Mémoire Unifiée, votre GPU peut y accéder en totalité !
Voici précisément ce que vous pouvez exécuter en fonction de la RAM de votre Mac :
| RAM de votre Mac |
Taille Maximale du Modèle |
Modèles Recommandés |
Notes |
| 8 Go (M3 de base) |
~7B à 8B paramètres |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
Fermez les autres applications pour éviter le swap mémoire. |
| 16 Go / 18 Go |
~13B à 14B paramètres |
Qwen 2.5 (14B), Command R |
La configuration idéale. Exécutez Llama 3 (8B) à une vitesse fulgurante. |
| 36 Go / 64 Go |
~30B à 70B paramètres |
Mixtral (8x7B), Llama 3 (70B en Q2) |
IA de niveau desktop en natif. |
| 128 Go+ |
~120B+ paramètres |
Llama 3 (70B Q8), Command R+ |
Vous possédez un superordinateur personnel. |
Comment savoir si Ollama utilise réellement le GPU de votre M3 et ne se rabat pas sur le CPU lent ? Vérifions-le de manière empirique.
- Ouvrez le Moniteur d'activité sur votre Mac (
Cmd + Space -> "Moniteur d'activité").
- Appuyez sur
Cmd + 4 pour ouvrir la fenêtre Historique GPU.
- Gardez cette fenêtre visible, et retournez dans votre terminal exécutant
ollama run llama3.
- Donnez-lui une requête massive :
Write a 1000 word essay about the history of artificial intelligence.
Observez le graphique de l'Historique GPU. Vous devriez constater un pic massif et soutenu, poussant votre GPU à 90-100 % d'utilisation. Si vous observez cela, l'accélération Metal d'Apple fonctionne parfaitement !
Step 5 Exposition de l'API Locale
Le terminal est excellent, mais que faire si vous souhaitez utiliser une interface web élégante ou intégrer votre modèle local dans une application en cours de développement ?
Ollama exécute un serveur API local par défaut. Ouvrez un navigateur et accédez à :
http://localhost:11434
Vous pouvez désormais interroger cette API via curl ou Python, exactement comme l'API OpenAI :
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Vous avez réussi à transformer votre Mac M3 en un serveur d'IA privé et hors ligne. Vos données ne quittent jamais votre machine, et vous ne payez aucun frais d'API.