Lokales LLM in 20 Minuten: Ollama und LM Studio einrichten
So einfach läuft ein KI-Sprachmodell auf deinem eigenen Rechner – mit Ollama oder LM Studio. Herunterladen, Modell wählen, fertig.
Ein KI-Modell auf dem eigenen Rechner zu betreiben, ist heute eine Sache von Minuten. Du lädst ein Programm, wählst ein Modell, und schon chattest du – komplett offline, ohne Anmeldung, ohne dass Daten deinen Rechner verlassen.
Zwei Werkzeuge machen das einfach. Beide sind kostenlos und laufen auf Windows und Mac. Warum sich das gerade für Betriebe lohnt, steht im Artikel KI im eigenen Betrieb.
Was dein Rechner braucht
Eine Sache vorweg: das Tempo hängt an deiner Hardware.
Hast du eine Nvidia-Grafikkarte, läuft das Modell richtig schnell – die Grafikkarte übernimmt die Rechenarbeit. Ohne dedizierte Grafikkarte läuft es im Arbeitsspeicher. Das ist langsamer, funktioniert aber problemlos. In beiden Fällen gilt: fang mit einem kleinen Modell an.
Ollama: herunterladen, Modell wählen, fertig
-
Ollama herunterladen
Lade Ollama von ollama.com und installiere es. Danach öffnest du das Programm – es startet mit einem Chat-Fenster.
-
Ein Modell wählen
Such dir im Chat ein Modell aus, zum Beispiel Gemma 4 von Google. Beim ersten Mal lädt Ollama es automatisch herunter. Das dauert einen Moment, danach ist es da.
-
Loslegen
Schreib deine erste Frage ins Chat-Fenster. Fertig. Das Modell antwortet direkt auf deinem Rechner.
LM Studio: fast noch einfacher
LM Studio nimmt dir noch mehr ab. Beim ersten Start schlägt es dir gleich ein Modell vor, das zu deinem Rechner passt – ein Klick, geladen, läuft.
Die Oberfläche startet auf Englisch, lässt sich in den Einstellungen aber auf Deutsch umstellen. Über den Suchkatalog wählst du genauso einfach selbst ein Modell. Praktisch: zu jedem Modell zeigt dir LM Studio, ob es komplett in deinen Grafikspeicher passt – du erkennst es am Hinweis «Vollständiges GPU-Offloading möglich». Solche Modelle laufen am schnellsten.
Klein anfangen lohnt sich
Wenn das läuft, hast du eine eigene KI ohne Cloud. Was du damit im Betrieb anstellst – vom Offerten-Entwurf bis zur Dokumentensuche – schauen wir uns im Artikel KI im eigenen Betrieb an.
Häufige Fragen
- Was ist der Unterschied zwischen Ollama und LM Studio?
- Ollama läuft schlank über ein Chat-Fenster und ist schnell startklar. LM Studio bietet zusätzlich einen Suchkatalog und schlägt dir beim Start ein passendes Modell vor. Beide sind kostenlos.
- Wie viel RAM braucht ein lokales LLM?
- Für kleine Modelle reichen 8 bis 16 GB Arbeitsspeicher. Grössere Modelle brauchen mehr. Eine Nvidia-Grafikkarte beschleunigt alles deutlich.
- Laufen lokale Modelle wirklich ohne Internet?
- Ja. Nach dem Download des Modells läuft alles offline auf deinem Rechner. Es werden keine Daten an einen Server gesendet.
- Welches Modell soll ich zuerst nehmen?
- Fang mit einem kleinen Modell wie Gemma 4 an. Es lädt schnell, läuft flüssig und reicht für die meisten Aufgaben. Grössere lädst du jederzeit nach.