LM Studio
Wer sich dafür interessiert, Sprachmodelle lokal auszuführen, landen unweigerlich bei Ollama. Dieses Open-Source-Projekt macht es zum Kinderspiel, lokale Sprachmodelle herunterzuladen und auszuführen. Die macOS- und Windows-Version haben sogar eine Oberfläche, unter Linux müssen Sie sich mit dem Terminal-Betrieb oder der API begnügen.
Zuletzt machte Ollama allerdings mehr Ärger als Freude. Auf gleich zwei Rechnern mit AMD-CPU/GPU wollte Ollama pardout die GPU nicht nutzen. Auch die neue Umgebungsvariable OLLAMA_VULKAN=1 funktionierte nicht wie versprochen, sondern reduzierte die Geschwindigkeit noch weiter.
Kurz und gut, ich hatte die Nase voll, suchte nach Alternativen und landete bei LM Studio. Ich bin begeistert. Kurz zusammengefasst: LM Studio unterstützt meine Hardware perfekt und auf Anhieb (auch unter Linux), bietet eine Benutzeroberfläche mit schier unendlich viel Einstellmöglichkeiten (wieder: auch unter Linux) und viel mehr Funktionen als Ollama. Was gibt es auszusetzen? Das Programm richtet sich nur bedingt an LLM-Einsteiger, und sein Code untersteht keiner Open-Source-Lizenz. Das Programm darf zwar kostenlos genutzt werden (seit Mitte 2025 auch in Firmen), aber das kann sich in Zukunft ändern.
Installation unter Linux
Kostenlose Downloads für LM Studio finden Sie unter https://lmstudio.ai. Die Linux-Version wird als sogenanntes AppImage angeboten. Das ist ein spezielles Paketformat, das grundsätzlich eine direkte Ausführung der heruntergeladenen Datei ohne explizite Installation erlaubt. Das funktioniert leider nur im Zusammenspiel mit wenigen Linux-Distributionen auf Anhieb. Bei den meisten Distributionen müssen Sie die Datei nach dem Download explizit als »ausführbar« kennzeichnen. Je nach Distribution müssen Sie außerdem die FUSE-Bibliotheken installieren. (FUSE steht für Filesystem in Userspace und erlaubt die Nutzung von Dateisystem-Images ohne root-Rechte oder sudo.)
Unter Fedora funktioniert es wie folgt:
sudo dnf install fuse-libs # FUSE-Bibliothek installieren
chmod +x Downloads/*.AppImage # execute-Bit setzen
Downloads/LM-Studio-<n.n>.AppImage # LM Studio ausführen
Nach dnf install fuse-libs und chmod +x können Sie LM Studio per Doppelklick im Dateimanager starten.
Erste Schritte
Nach dem ersten Start fordert LM Studio Sie auf, ein KI-Modell herunterzuladen. Es macht gleich einen geeigneten Vorschlag. In der Folge laden Sie dieses Modell und können dann in einem Chat-Bereich Prompts eingeben. Die Eingabe und die Darstellung der Ergebnisse sieht ganz ähnlich wie bei populären Weboberflächen aus (also ChatGPT, Claude etc.).
Nachdem Sie sich vergewissert haben, dass LM Studio prinzipiell funktioniert, ist es an der Zeit, die Oberfläche genauer zu erkunden. Grundsätzlich können Sie zwischen drei Erscheinungsformen wählen, die sich an unterschiedliche Benutzergruppen wenden: User, Power User und Developer.
In den letzteren beiden Modi präsentiert sich die Benutzeroberfläche in all ihren Optionen. Es gibt
vier prinzipielle Ansichten, die durch vier Icons in der linken Seitenleiste geöffnet werden:
- Chats
- Developer (Logging-Ausgaben, Server-Betrieb)
- My Models (Verwaltung der heruntergeladenen Sprachmodelle)
- Discover (Suche und Download weiterer Modelle).
GPU Offload und Kontextlänge einstelln
Sofern Sie mehrere Sprachmodelle heruntergeladen haben, wählen Sie das gewünschte Modell über ein Listenfeld oberhalb des Chatbereichs aus. Bevor der Ladevorgang beginnt, können Sie diverse Optionen einstellen (aktivieren Sie bei Bedarf Show advanced settings). Besonders wichtig sind die Parameter Context Length und GPU Offload.
Die Kontextlänge limitiert die Größe des Kontextspeichers. Bei vielen Modellen gilt hier ein viel zu niedriger Defaultwert von 4000 Token. Das spart Speicherplatz und erhöht die Geschwindigkeit des Modells. Für anspruchsvolle Coding-Aufgaben brauchen Sie aber einen viel größeren Kontext!
Der GPU Offload bestimmt, wie viele Ebenen (Layer) des Modells von der GPU verarbeitet werden sollen. Für die restlichen Ebenen ist die CPU zuständig, die diese Aufgabe aber wesentlich langsamer erledigt. Sofern die GPU über genug Speicher verfügt (VRAM oder Shared Memory), sollten Sie diesen Regler immer ganz nach rechts schieben! LM Studio ist nicht immer in der Lage, die Größe des Shared Memory korrekt abzuschätzen und wählt deswegen mitunter einen zu kleinen GPU Offload.


Debugging und Server-Betrieb
In der Ansicht Developer können Sie Logging-Ausgaben lesen. LM Studio verwendet wie Ollama und die meisten anderen KI-Oberflächen das Programm llama.cpp zur Ausführung der lokalen Modelle. Allerdings gibt es von diesem Programm unterschiedliche Versionen für den CPU-Betrieb (langsam) sowie für diverse GPU-Bibliotheken.
In dieser Ansicht können Sie den in LM Studio integrierten REST-Server aktivieren. Damit können Sie z.B. mit eigenen Python-Programmen oder mit dem VS-Code-Plugin Continue Prompts an LM Studio senden und dessen Antwort verarbeiten. Standardmäßig kommt dabei der Port 1234 um Einsatz, wobei der Zugriff auf den lokalen Rechner limitiert ist. In den Server Settings können Sie davon abweichende Einstellungen vornehmen.


Praktische Erfahrungen am Framework Desktop
Auf meinem neuen Framework Desktop mit 128 GiB RAM habe ich nun diverse Modelle ausprobiert. Die folgende Tabelle zeigt die erzielte Output-Geschwindigkeit in Token/s. Beachten Sie, dass die Geschwindigkeit spürbar sinkt wenn viel Kontext im Spiel ist (größere Code-Dateien, längerer Chat-Verlauf).
Sprachmodell MoE Parameter Quant. Token/s
------------- ----- ---------- --------- --------
deepseek-r1-distill-qwen-14b nein 14 Mrd. Q4_K_S 22
devstral-small-2-2512 nein 25 Mrd. Q4_K_M 13
glm-4.5-air ja 110 Mrd. Q3_K_L 25
gpt-oss-20b ja 20 Mrd. MXFP4 65
gpt-oss-120b ja 120 Mrd. MXFP4 48
nouscoder-14b nein 14 Mrd. Q4_K_S 22
qwen3-30b-a3b ja 30 Mrd. Q4_K_M 70
qwen3-next-80b-83b ja 80 Mrd. Q4_K_XL 40
seed-oss-36b nein 36 Mrd. Q4_K_M 10
Normalerweise gilt: je größer das Sprachmodell, desto besser die Qualität, aber desto kleiner die Geschwindigkeit. Ein neuer Ansatz durchbricht dieses Muster. Bei Mixture of Expert-Modellen (MoE-LLMs) gibt es Parameterblöcke für bestimmte Aufgaben. Bei der Berechnung der Ergebnis-Token entscheidet das Modell, welche »Experten« für den jeweiligen Denkschritt am besten geeignet sind, und berücksichtigt nur deren Parameter.
Ein populäres Beispiel ist das freie Modell GPT-OSS-120B. Es umfasst 117 Milliarden Parameter, die in 36 Ebenen (Layer) zu je 128 Experten organisiert sind. Bei der Berechnung jedes Output Tokens sind in jeder Ebene immer nur vier Experten aktiv. Laut der Modelldokumentation sind bei der Token Generation immer nur maximal 5,1 Milliarden Parameter aktiv. Das beschleunigt die Token Generation um mehr als das zwanzigfache:
Welches ist nun das beste Modell? Auf meinem Rechner habe ich mit dem gerade erwähnten Modell GPT-OSS-120B sehr gute Erfahrungen gemacht. Für Coding-Aufgaben funktionieren auch qwen3-next-80b-83b und glm-4.5-air gut, wobei letzteres für den praktischen Einsatz schon ziemlich langsam ist.

GNOME hat die nächste Wartungsversion der aktuellen Brescia Reihe veröffentlicht. GNOME 49.3 wirkt auf den ersten Blick unspektakulär, bringt jedoch viele gezielte Verbesserungen für einen stabileren Alltag. Neue Funktionen fehlen bewusst, denn das Update konzentriert sich vollständig auf Fehlerbehebungen. Ein zentraler Bestandteil ist die aktualisierte Glib 2.86.3 Version. Sie schließt mehrere Sicherheitslücken, die unterschiedliche Bereiche […]
Budgie läutet mit Version 10.10 eine neue Ära ein. Nach vielen Jahren unter X11 wechselt der Desktop nun endlich zu Wayland. Damit endet ein langer Entwicklungsabschnitt und Budgie 10 tritt in die reine Pflegephase ein. Die Zukunft des Projekts richtet sich klar auf Budgie 11. Trotz des tiefen Wechsels bleibt das vertraute Gefühl erhalten. Panels […]
Die KDE Entwickler veröffentlichen Plasma 6.5.5 und liefern damit ein reines Wartungsupdate für die aktuelle Serie. Neue Funktionen fehlen bewusst, denn das Team konzentriert sich auf Stabilität und saubere Abläufe. Die Veröffentlichung folgt gut einen Monat nach Version 6.5.4 und setzt den Kurs konsequenter Pflege fort. Besonders viel Aufmerksamkeit erhält erneut die Wayland Basis. KWin […]
Linux Mint legt nach der Freigabe von Cinnamon 6.6 für LMDE 7 nun nach und veröffentlicht die neue Version 22.3 der Linux Mint Hauptausgabe mit dem Namen Zena. Die Images stehen bereits auf vielen Spiegelservern bereit und markieren den Abschluss der aktuellen 22er Entwicklungsrunde. Die Ausgabe basiert auf Ubuntu 24.04.3 LTS und nutzt Kernel 6.14. […]
Zum Jahresende 2025 werfen wir gemeinsam einen Blick zurück auf ein bewegtes Linux und Open-Source-Jahr 2025. Ich teile meine persönlichen Highlights, spreche über Überraschungen, Diskussionen und ziehe ein ehrliches Fazit zum Thema “War 2025 das Jahr des Linux Desktops?”. Das alles inklusive eines kurzen Updates zur aktuellen Situation bei fosstopia, den Plänen für 2026 und […]





elementary OS meldet sich mit Version 8.1 zurück und liefert ein Update, das viele Wünsche der Community aufgreift. Die neue Ausgabe setzt auf mehr Sicherheit, bessere Hardwareunterstützung und zahlreiche Verbesserungen im Alltag. Beim hauseigenen Pantheon Desktop rückt die auf Wayland basierende Secure Session nun in den Mittelpunkt. Sie schützt Passworteingaben besser und verhindert störende Fokuswechsel. […]







System76 hat am 11. Dezember, kurz vor Jahresende, Pop!_OS 24.04 LTS veröffentlicht. Mit dabei ist erstmals die stabile Version der neuen COSMIC Umgebung. Mehr als drei Jahre Entwicklung münden damit in ein Release das Maßstäbe setzen will. COSMIC wurde komplett in Rust geschrieben und modular aufgebaut. Nutzer profitieren von einer schnelleren Oberfläche und flüssigerer Bedienung. […]
Das Solus Team hat die neue Version 4.8 veröffentlicht. Zehn Monate nach dem letzten Release präsentiert sich die Distribution mit zahlreichen Verbesserungen und einem komplett überarbeiteten Webauftritt. Der Codename „Opportunity“ soll den Aufbruch in eine neue Entwicklungsphase symbolisieren. Mit dieser Ausgabe ist die lang geplante Usr-Merge Umstellung abgeschlossen. Das Projekt nutzt nun das Polaris Paketarchiv, […]
Der Trinity Desktop Environment (TDE), Nachfolger des klassischen KDE 3.5, hat Version 14.1.5 veröffentlicht. Die neue Ausgabe richtet sich an Nutzer, die ein leichtgewichtiges, traditionelles Desktop-Erlebnis bevorzugen, ohne auf moderne Stabilität und Kompatibilität zu verzichten. Die wichtigste Neuerung betrifft den Fenstermanager TWin, der nun Tiling bei Mehrschirmkonfigurationen unterstützt. Damit lassen sich Arbeitsflächen auf mehreren Monitoren […]