laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Step 1 Die Kosten von Cloud-Autovervollständigung vs. lokaler KI
Jeder Tastendruck, den Sie in VS Code mit aktivem GitHub Copilot eingeben, wird an Microsofts Azure-gehostete OpenAI-Infrastruktur übertragen. Das ist keine Verschwörungstheorie — es ist die dokumentierte Produktarchitektur. Ihre proprietären Algorithmen, interne Geschäftslogik, unveröffentlichte Features und Architekturentscheidungen verlassen alle Ihren Rechner. Für einzelne Entwickler, die an Nebenprojekten arbeiten, ist dieser Kompromiss oft akzeptabel. Für Teams, die kommerziell sensible Software entwickeln, ist es ein materielles Sicherheits- und Compliance-Risiko.
Dann gibt es noch die finanzielle Dimension.
Die Preisrealität von GitHub Copilot
| Plan |
Monatliche Kosten |
Jährliche Kosten |
Team von 10 |
| Copilot Individual |
$10/Monat |
$100/Jahr |
$1.000/Jahr |
| Copilot Business |
$19/Monat/Nutzer |
$228/Jahr/Nutzer |
$2.280/Jahr |
| Copilot Enterprise |
$39/Monat/Nutzer |
$468/Jahr/Nutzer |
$4.680/Jahr |
Für eine mittelgroße Entwicklungsorganisation mit 50 Entwicklern auf dem Business-Tier sprechen wir von $11.400 pro Jahr — auf unbegrenzte Zeit an einen externen Anbieter gezahlt, ohne Eigentumsrecht am zugrundeliegenden Modell oder Garantie auf Preisstabilität. Microsoft hat die Copilot-Preise seit dem Launch bereits nach oben korrigiert, und es gibt keinen strukturellen Grund, zu erwarten, dass sich dieser Trend umkehrt.
Was „Lokale KI" tatsächlich bedeutet
Das Ausführen eines lokalen Modells über Ollama verändert die Gleichung grundlegend. Die Rechenkosten sind Ihre bereits vorhandene Hardware. Das Datenschutzmodell ist absolut — keine Daten verlassen Ihren Rechner. Die Latenz ist oft geringer als bei cloudbasierten Vervollständigungen, da der Netzwerk-Roundtrip zu entfernten Inferenz-Servern entfällt.
Terminal
Cloud Copilot flow:
Keypress → VS Code → HTTPS → Azure OpenAI → Inference → Response → VS Code
Local Ollama flow:
Keypress → VS Code → localhost:11434 → Inference → Response → VS Code
Der localhost-Inferenzpfad eliminiert eine ganze Kategorie von Fehlerquellen: API-Ausfälle, Rate-Limiting, Unternehmens-Proxy-Interferenzen und geografische Latenzschwankungen. Entwickler hinter strikten Unternehmens-Firewalls, die Copilot bisher gar nicht nutzen konnten, können nun ein vollständig leistungsfähiges Code-Modell betreiben, ohne den Netzwerkperimeter zu berühren.
Die versteckten Kosten der Cloud-Abhängigkeit
Über Lizenzgebühren hinaus führt Cloud-Autovervollständigung zu einer operativen Kopplung, die leicht unterschätzt wird:
- Vendor-Lock-in: Der Workflow Ihres Teams wird abhängig von einem Drittanbieterdienst mit einseitiger Kontrolle über Preisgestaltung, Verfügbarkeit und Nutzungsbedingungen.
- Compliance-Aufwand: Viele regulierte Branchen (Gesundheitswesen, Finanzen, Verteidigung) verlangen formelle Datenverarbeitungsvereinbarungen und Sicherheitsprüfungen für jedes Tool, das Code extern überträgt. Der Genehmigungsprozess für Copilot ist in diesen Umgebungen nicht trivial.
- Context-Window-Leckage: Cloud-Modelle erhalten nicht nur Ihre aktuelle Datei, sondern auch umgebende Kontextpuffer — benachbarte Dateien, kürzlich geöffnete Tabs und Repository-Metadaten je nach Konfiguration.
- Lücken im Audit-Trail: Wenn Code-Vorschläge aus einer externen Black Box stammen, wird die Zuordnung von IP-Herkunft in Rechtsstreitigkeiten oder Lizenzstreitigkeiten kompliziert.
Wo lokale Modelle heute wettbewerbsfähig sind
Moderne quantisierte Modelle wie Code Llama 13B und StarCoder2 7B, die auf Consumer-Hardware laufen, erreichen eine Vervollständigungsqualität, die für die häufigsten Autovervollständigungsszenarien genuine Konkurrenz zu Copilot darstellt: Boilerplate-Generierung, Funktionssignatur-Vervollständigung, Test-Scaffolding und gängige Algorithmus-Implementierungen. Die Lücke verengt sich weiter, wenn das Modell mit Code in Sprachen und Mustern arbeitet, auf die es spezifisch trainiert wurde.
Die Kalkulation ist eindeutig: null Grenzkosten, vollständige Datensouveränität und keine externen Abhängigkeiten versus eine wachsende SaaS-Rechnung und eine implizite Vereinbarung, Ihre Codebasis mit einem Cloud-Inferenz-Anbieter zu teilen. Für Teams, die ernsthaft an langfristiger Toolchain-Eigenverantwortung interessiert sind, ist der Local-First-Ansatz kein Kompromiss — er ist die architektonisch defensiblere Wahl.
Step 2 Voraussetzungen: VS Code und Ollama
Bevor wir in die Konfiguration eintauchen, müssen zwei grundlegende Komponenten verifiziert und gesichert sein. Das Überspringen einer ordnungsgemäßen Voraussetzungs-Validierung ist der bei weitem häufigste Grund, warum Entwickler stundenlang debuggen, was eigentlich ein unkompliziertes lokales KI-Setup sein sollte. Machen Sie diese richtig, und alles Nachfolgende wird mechanisch.
Visual Studio Code
Sie benötigen VS Code 1.80 oder neuer. Die Continue.dev-Extension ist auf moderne VS Code-APIs für Inline-Ghost-Text-Vervollständigungen angewiesen, und ältere Versionen werden stillschweigend scheitern oder ein degradiertes Verhalten produzieren.
Überprüfen Sie Ihre Version über die Kommandozeile:
Erwartete Ausgabe (Ihre kann neuer sein):
Terminal
1.89.1
e170252f762678dec6ca2cc69aba1864a9a1f8ad
x64
Wenn Sie einen Fork wie VSCodium verwenden, ist Continue.dev vollständig kompatibel — stellen Sie nur sicher, dass Sie die Extension aus der Open VSX Registry und nicht aus dem Microsoft Marketplace beziehen, da VSCodium standardmäßig ohne Microsofts proprietären Extension-Host ausgeliefert wird.
Ollama
Ollama ist die lokale Modell-Laufzeitumgebung, die Model-Downloads, Quantisierungs-Management übernimmt und eine OpenAI-kompatible REST-API auf localhost:11434 bereitstellt. Diese Kompatibilitätsschicht ist genau der Grund, warum sich Continue.dev so sauber damit integriert — keine benutzerdefinierte Plugin-Architektur erforderlich.
Installation nach Plattform:
| Plattform |
Befehl / Methode |
| macOS |
brew install ollama oder Download von ollama.com |
| Linux |
curl -fsSL https://ollama.com/install.sh \| sh |
| Windows |
Nativer Installer von ollama.com/download |
Starten Sie nach der Installation den Ollama-Daemon:
Unter macOS läuft Ollama nach der Installation automatisch als Menüleisten-Applikation. Unter Linux möchten Sie es möglicherweise als systemd-Dienst einrichten:
Terminal
sudo systemctl enable ollama
sudo systemctl start ollama
Überprüfen Sie, ob die API aktiv ist:
Terminal
curl http://localhost:11434/api/tags
Eine erfolgreiche Antwort gibt ein JSON-Objekt zurück, das Ihre lokal installierten Modelle auflistet. Eine leere Liste ist in diesem Stadium in Ordnung — Model-Downloads folgen in einem späteren Schritt.
Hardware-Überlegungen
Hier lassen Sie die meisten Anleitungen im Stich. Ihre Hardware bestimmt direkt, welche Modelle praktikabel sind und auf welchem Quantisierungsniveau.
| VRAM / Unified Memory |
Empfohlene Stufe |
Erwartete Latenz |
| 8 GB |
7B-Modelle bei Q4_K_M |
Akzeptabel (40–80 Tok/s) |
| 16 GB |
13B-Modelle bei Q4_K_M |
Gut (30–60 Tok/s) |
| 24 GB+ |
34B-Modelle bei Q4_K_M |
Ausgezeichnet (20–40 Tok/s) |
| Nur CPU |
3B–7B bei Q4 max |
Langsam, aber funktional |
Ollama lagert Layer automatisch auf Ihre GPU aus via Metal (Apple Silicon), CUDA (NVIDIA) oder ROCm (AMD). Keine manuelle Konfiguration erforderlich — Ollama erkennt Ihre Hardware und optimiert das Layer-Offloading transparent.
Kritischer Hinweis für Apple-Silicon-Nutzer: Unified Memory wird zwischen CPU und GPU geteilt. Ein MacBook Pro M3 mit 16 GB kann ein 13B-Modell komfortabel ausführen, da es keine diskrete VRAM-Obergrenze gibt. Dies ist eines der stärksten Argumente für Apple Silicon in lokalen KI-Workflows.
Bestätigung Ihrer Umgebung
Führen Sie diesen schnellen Plausibilitätscheck durch, bevor Sie fortfahren:
Terminal
# Confirm VS Code version
code --version
# Confirm Ollama is running and responsive
curl -s http://localhost:11434/api/tags | python3 -m json.tool
# Confirm GPU acceleration (Ollama logs)
ollama run llama3.2:1b "say ok"
Beobachten Sie die Ollama-Terminal-Ausgabe während der Modell-Inferenz. Sie sollten Layer-Offload-Anzahlen sehen, die auf Ihre GPU verweisen. Wenn alles auf der CPU läuft, überprüfen Sie Ihre Treiber-Installation erneut, bevor Sie größere Code-Modelle herunterladen.
Mit beiden bestätigten Voraussetzungen sind Sie bereit, Continue.dev zu installieren und alles zu verbinden.
Step 3 Schritt 1: Installation der Continue.dev-Extension
Continue.dev ist der Grundpfeiler dieses gesamten Setups — ein Open-Source-KI-Code-Assistent, der als Drop-in-Ersatz für GitHub Copilot fungiert, aber mit einem entscheidenden architektonischen Unterschied: Er leitet Ihre Anfragen dorthin weiter, wo Sie es ihm sagen, einschließlich einer lokal laufenden Ollama-Instanz. Kein Telemetrie. Kein Cloud-Egress. Kein Abonnement.
Installation aus dem VS Code Marketplace
Der einfachste Installationsweg führt direkt im Editor über den VS Code Extension Marketplace:
- Öffnen Sie VS Code
- Drücken Sie
Ctrl+Shift+X (Windows/Linux) oder Cmd+Shift+X (macOS), um das Extensions-Panel zu öffnen
- Suchen Sie nach "Continue"
- Lokalisieren Sie die von Continue veröffentlichte Extension (das Icon ist ein markantes lila Gradienten-Logo)
- Klicken Sie auf Install
Alternativ installieren Sie es über die Kommandozeile mit der VS Code CLI:
Terminal
code --install-extension Continue.continue
Oder wenn Sie VS Codium (den Telemetrie-freien Fork) verwenden, ist die Extension im Open VSX Registry verfügbar:
Terminal
codium --install-extension Continue.continue
Hinweis: Continue.dev unterstützt auch JetBrains IDEs (IntelliJ, PyCharm, GoLand, etc.) über ein separates Plugin, aber dieser Leitfaden konzentriert sich ausschließlich auf die VS Code-Integration.
Überprüfung der Installation
Nach der Installation sollten Sie zwei sofortige Änderungen in Ihrer VS Code-Umgebung sehen:
| UI-Element |
Ort |
Zweck |
| Continue-Seitenleisten-Icon |
Activity Bar (linkes Panel) |
Öffnet die Chat-Oberfläche |
| Inline-Ghost-Text |
Code-Editor |
Autovervollständigungs-Vorschläge |
Tastenkürzel Ctrl+L |
Global |
Fokussiert das Continue-Chat-Panel |
Tastenkürzel Tab |
Editor |
Autovervollständigungs-Vorschlag akzeptieren |
Klicken Sie auf das Continue-Icon in der Activity Bar, um das Seitenpanel zu öffnen. Beim ersten Start präsentiert Continue einen Onboarding-Flow, der Sie auffordert, einen Anbieter zu verbinden. Sie können diesen überspringen oder schließen — wir verbinden Ollama manuell im nächsten Schritt durch direktes Bearbeiten von config.json, was uns weitaus mehr Kontrolle gibt als der GUI-Wizard.
Das Architekturverständnis der Extension
Bevor wir weitermachen, lohnt es sich zu verstehen, was Continue tatsächlich installiert und wie es kommuniziert:
Terminal
VS Code Extension (Continue.dev)
│
▼
config.json ──────────────────────────────────────────────────┐
│ │
▼ ▼
Chat Provider (LLM) Autocomplete Provider (LLM)
e.g., Ollama → llama3 e.g., Ollama → starcoder2
│ │
└────────────────────────┬─────────────────────────────────┘
│
▼
http://localhost:11434 (Ollama REST API)
Continue trennt Chat und Autovervollständigung in zwei unabhängig konfigurierbare Anbieter. Dies ist eine mächtige Unterscheidung — Sie können ein großes, instruktionsgesteuertes Modell wie llama3 oder deepseek-coder für konversationelle Anfragen betreiben, während Sie ein leichtgewichtiges Fill-in-the-Middle-Modell wie starcoder2:3b für latenzarme Inline-Vervollständigungen verwenden. Kein anderer gängiger Copilot-Ersatz bietet diese Granularität bei der Anbieter-Konfiguration.
Die config.json-Datei lokalisieren
Das gesamte Verhalten von Continue wird durch eine einzelne JSON-Datei gesteuert. Wissen Sie, wo sie sich befindet:
| Betriebssystem |
Pfad |
| macOS |
~/.continue/config.json |
| Linux |
~/.continue/config.json |
| Windows |
%USERPROFILE%\.continue\config.json |
Sie können sie direkt aus VS Code über das Einstellungs-Zahnrad-Icon des Continue-Panels öffnen oder manuell im Terminal navigieren:
Terminal
# macOS / Linux
cat ~/.continue/config.json
# Windows (PowerShell)
Get-Content "$env:USERPROFILE\.continue\config.json"
Mit der installierten Extension und der lokalisierten Konfigurationsdatei sind Sie bereit, Continue auf Ihre lokale Ollama-Instanz zu verweisen.
Step 4 Schritt 2: Konfiguration von config.json für Ollama
Sobald Continue.dev installiert ist, wird das gesamte Verhalten der Extension durch eine einzige Datei gesteuert: config.json. Hier verbinden Sie Continue mit Ihrer lokalen Ollama-Instanz, definieren, welche Modelle Chat versus Autovervollständigung übernehmen, und justieren Leistungsparameter. Diese Datei korrekt zu konfigurieren ist der Unterschied zwischen einem trägen, unzuverlässigen Setup und einem, das GitHub Copilot in der Reaktionsgeschwindigkeit rivaliert.
config.json lokalisieren
Continue speichert seine Konfiguration in Ihrem Home-Verzeichnis:
| Betriebssystem |
Pfad |
| macOS / Linux |
~/.continue/config.json |
| Windows |
%USERPROFILE%\.continue\config.json |
Sie können sie auch direkt aus VS Code über die Continue-Seitenleiste öffnen — klicken Sie auf das Zahnrad-Icon am unteren Ende des Continue-Panels, und es öffnet config.json im Editor.
Die minimale Ollama-Konfiguration
Nachfolgend ist eine produktionsreife Basis-config.json, die Continue mit einer lokal laufenden Ollama-Instanz für sowohl Chat als auch Tab-Autovervollständigung verbindet:
Terminal
{
"models": [
{
"title": "CodeLlama 13B (Chat)",
"provider": "ollama",
"model": "codellama:13b",
"apiBase": "http://localhost:11434"
}
],
"tabAutocompleteModel": {
"title": "StarCoder2 3B (Autocomplete)",
"provider": "ollama",
"model": "starcoder2:3b",
"apiBase": "http://localhost:11434"
},
"tabAutocompleteOptions": {
"useCopyBuffer": false,
"maxPromptTokens": 1024,
"prefixPercentage": 0.85
},
"allowAnonymousTelemetry": false
}
Warum zwei separate Modelle? Chat-Modelle sind für Instruktions-Following und Multi-Turn-Dialog optimiert. Autovervollständigungs-Modelle — insbesondere jene, die mit Fill-in-the-Middle (FIM) trainiert wurden — sind spezifisch darauf abgestimmt, Code aus einem Prefix- und Suffix-Kontextfenster vorherzusagen. Beide zu vermischen verschlechtert beide Erfahrungen.
Aufschlüsselung jedes Feldes
models-Array — Dies definiert die im Continue-Chat-Panel verfügbaren Modelle. Sie können mehrere Einträge hinzufügen und zur Laufzeit zwischen ihnen wechseln. Jedes Objekt erfordert:
- provider: auf "ollama" für lokale Inferenz setzen
- model: den exakten Tag, wie er in ollama list erscheint
- apiBase: Ollamas Standard-REST-Endpunkt; ändern Sie diesen nur, wenn Sie den Port umgemappt haben
tabAutocompleteModel — Ein dedizierter Eintrag für Inline-Autovervollständigung. Dieses Modell feuert bei jeder Tastenpause, daher gilt: kleiner und schneller ist hier besser. Ein 3B–7B-Parameter-Modell mit FIM-Unterstützung ist der Sweet Spot.
tabAutocompleteOptions — Feinkörnige Kontrolle über die Autovervollständigungs-Engine:
| Option |
Wert |
Zweck |
useCopyBuffer |
false |
Verhindert, dass Zwischenablage-Inhalte in Vorschläge einfließen |
maxPromptTokens |
1024 |
Begrenzt das pro Anfrage gesendete Kontextfenster — kritisch für Latenz |
prefixPercentage |
0.85 |
Weist 85% des Token-Budgets dem Code vor dem Cursor zu |
allowAnonymousTelemetry — Setzen Sie dies auf false. Sie betreiben lokale KI genau deshalb, um Ihren Code von Drittanbietern fernzuhalten; es gibt keinen Grund, Telemetrie an die Analyse-Pipeline von Continue zu senden.
Überprüfung der Verbindung
Nach dem Speichern von config.json bestätigen Sie, dass Ollama von Continue aus erreichbar ist, indem Sie die VS Code Command Palette (Cmd+Shift+P / Ctrl+Shift+P) öffnen und folgendes ausführen:
Terminal
Continue: Open Debug Panel
Sie sollten einen grünen Status-Indikator und einen erfolgreichen Modell-Ping sehen. Wenn Sie einen connection refused-Fehler erhalten, überprüfen Sie, ob Ollama läuft mit:
Terminal
ollama serve
# or check its status
curl http://localhost:11434/api/tags
Eine gültige JSON-Antwort, die Ihre heruntergeladenen Modelle auflistet, bestätigt, dass die API aktiv ist und Continue mit der Bereitstellung von Vervollständigungen fortfahren kann.
Step 5 Schritt 3: Code Llama oder StarCoder2 herunterladen
Mit installiertem Continue.dev und konfigurierter config.json ist die nächste kritische Entscheidung, welches Modell Sie tatsächlich auf Ihren Rechner herunterladen. Für lokale Code-Vervollständigung und Chat dominieren zwei Modelle die Diskussion: Code Llama (Meta) und StarCoder2 (BigCode/Hugging Face). Beide laufen ausgezeichnet über Ollama, haben aber bedeutsam unterschiedliche Stärken. Lassen Sie uns diese aufschlüsseln und dann die genauen Pull-Befehle durchgehen.
Modellvergleich auf einen Blick
| Feature |
Code Llama |
StarCoder2 |
| Entwickler |
Meta AI |
BigCode (HuggingFace) |
| Parameter-Größen |
7B, 13B, 34B, 70B |
3B, 7B, 15B |
| Lizenz |
Llama 2 Community |
BigCode OpenRAIL-M |
| Stärken |
Allgemeines Coding + Chat, Python |
Mehrsprachiges Fill-in-Middle |
| Kontextfenster |
16K Tokens |
16K Tokens |
| Bester Anwendungsfall |
Chat + Vervollständigungs-Hybrid |
Reine Autovervollständigung / FIM |
| VRAM (7B-Variante) |
~4–5 GB |
~4–5 GB |
Empfehlung: Wenn Sie 8 GB VRAM oder RAM verfügbar haben, beginnen Sie mit codellama:7b-code für eine ausgewogene Erfahrung. Wenn Sie sich rein auf Inline-Autovervollständigungs-Qualität und Mehrsprachenunterstützung konzentrieren, schlägt starcoder2:7b bei Fill-in-the-Middle (FIM)-Benchmarks häufig das Erstere.
Code Llama über Ollama beziehen
Ollama macht das Modell-Management trivial einfach. Öffnen Sie Ihr Terminal und führen Sie aus:
Terminal
# Lightweight 7B instruct variant — best starting point
ollama pull codellama:7b-instruct
# 7B code-specialized variant — better raw completion, less chat
ollama pull codellama:7b-code
# If you have the hardware headroom (13B is noticeably sharper)
ollama pull codellama:13b-instruct
Die instruct-Variante versteht natürlichsprachliche Anweisungen und ist ideal für das Chat-Panel innerhalb von Continue.dev. Die code-Variante ist abgespeckt und rein für Vervollständigungs-Aufgaben optimiert — betrachten Sie sie als die „Autovervollständigungs-Engine"-Variante.
Nach dem Download überprüfen Sie, ob das Modell verfügbar ist:
Sie sollten eine Ausgabe ähnlich der folgenden sehen:
Terminal
NAME ID SIZE MODIFIED
codellama:7b-instruct 8fdf8f752f6e 3.8 GB 2 minutes ago
StarCoder2 über Ollama beziehen
StarCoder2 wurde gezielt für Fill-in-the-Middle (FIM)-Aufgaben entwickelt — genau das, worauf IDE-Autovervollständigung angewiesen ist. Es wurde auf über 600 Programmiersprachen aus dem The Stack v2-Datensatz trainiert, was es außergewöhnlich breit aufgestellt macht.
Terminal
# 3B — runs on nearly any modern machine, including CPU-only
ollama pull starcoder2:3b
# 7B — sweet spot for quality vs. resource usage
ollama pull starcoder2:7b
# 15B — requires ~10+ GB VRAM, but delivers near-Copilot quality
ollama pull starcoder2:15b
Testen Sie das Modell sofort in Ihrem Terminal, um zu bestätigen, dass es korrekt antwortet:
Terminal
ollama run starcoder2:7b "Write a Python function to flatten a nested list."
Wenn Sie kohärente, syntaktisch korrekte Ausgabe erhalten, ist Ihr Modell bereit für Continue.dev.
Ein Hinweis zu Hardware-Einschränkungen
Lassen Sie sich von den größeren Parameteranzahlen nicht einschüchtern. Quantisierte Modelle (die Ollama standardmäßig herunterlädt — typischerweise Q4_K_M-Quantisierung) sind dramatisch kleiner als ihre theoretischen Größen. Ein 7B-Modell in Q4-Quantisierung läuft komfortabel auf:
- Apple-Silicon-Macs (M1/M2/M3) mit 16 GB Unified Memory — nahezu native GPU-Beschleunigung via Metal
- NVIDIA-GPUs mit 6–8 GB VRAM (RTX 3060, 4060, etc.)
- Nur-CPU-Rechnern mit 16+ GB RAM — langsamer, aber vollständig funktional für Chat; die Autovervollständigungs-Latenz wird spürbar sein
Wenn Sie CPU-gebunden sind, bevorzugen Sie dringend starcoder2:3b oder codellama:7b-code — ihr kleinerer Speicher-Footprint übersetzt sich direkt in schnellere Token-Generierung und eine reaktionsfähigere Autovervollständigungs-Erfahrung.
Sobald Ihr gewähltes Modell heruntergeladen und verifiziert ist, wird Continue.dev es automatisch über den Ollama-API-Endpunkt (http://localhost:11434) entdecken, den Sie in Schritt 2 konfiguriert haben — keine zusätzliche Verknüpfung erforderlich.
Step 6 Best Practices für lokale Autovervollständigung und Chat
Den Stack zum Laufen zu bringen ist nur die halbe Miete. Maximale Produktivität aus einem lokalen KI-Setup zu extrahieren erfordert bewusste Konfigurationsentscheidungen, disziplinierte Prompt-Gewohnheiten und ein klares Verständnis davon, wo lokale Modelle brillieren und wo sie Sie frustrieren werden.
Modellauswahl-Strategie
Nicht alle Modelle sind gleich, und das richtige Werkzeug hängt von der jeweiligen Aufgabe ab. Betreiben Sie separate Modelle für Autovervollständigung und Chat, anstatt ein einzelnes Modell zu zwingen, beides zu leisten.
| Aufgabe |
Empfohlenes Modell |
Warum |
| Tab-Autovervollständigung |
starcoder2:3b |
Ultra-niedrige Latenz, für Fill-in-the-Middle optimiert |
| Code-Chat / Q&A |
codellama:13b |
Tieferes Reasoning, verarbeitet Kontextfenster gut |
| Refactoring |
deepseek-coder:6.7b |
Starkes Instruktions-Following für Umschreibungen |
| Allgemeiner Chat |
llama3:8b |
Breites Wissen, gut für Nicht-Code-Fragen |
Die Kernerkenntnis: Autovervollständigung ist latenzsensitiv, Chat ist qualitätssensitiv. Ein 3B-Modell, das in 150ms antwortet, fühlt sich bei Vervollständigungen magisch an. Dasselbe Modell, das auf eine komplexe Architektur-Frage eine oberflächliche Antwort gibt, fühlt sich defekt an.
Autovervollständigungs-Verhalten in config.json optimieren
Die Standard-Autovervollständigungs-Einstellungen in Continue.dev sind konservativ. Treiben Sie sie für eine bessere Erfahrung an:
```json
{
"tabAutocompleteModel": {
"title": "StarC