NixOS in neuer Version erschienen
NixOS, eine Linux-Distribution, die auf dem Paket-Repository Nixpkgs aufbaut, ist in der neuen Version 26.05 “Yarara” mit zahlreichen Neuerungen erschienen.
NixOS, eine Linux-Distribution, die auf dem Paket-Repository Nixpkgs aufbaut, ist in der neuen Version 26.05 “Yarara” mit zahlreichen Neuerungen erschienen.
Euro Office steht kurz vor dem offiziellen Start und erscheint am 9. Juni als stabile Version. Das Projekt soll Europas Abhängigkeit von großen US Diensten verringern. Nextcloud und IONOS treiben die Entwicklung gemeinsam voran. Beide wollen eine verlässliche Office Lösung bieten, die sich gut in bestehende Plattformen einfügt. Die Suite wird direkt in Nextcloud Hub […]
Der Beitrag Euro Office startet im Juni und setzt Segel für Europas digitale Unabhängigkeit erschien zuerst auf fosstopia.
Wie das US-Nachrichtenportal Axios berichtet, hat ein namentlich nicht genanntes großes US-Unternehmen innerhalb nur eines Monats bis zu 500 Millionen Dollar für Token an Anthropic für die…
KDE Linux konnte im Mai spürbare Schritte nach vorne machen und gewinnt an Struktur. Das Projekt stärkt seine Grundlagen und bringt mehr Kontrolle in Aufbau und Pflege des Systems. Die Entwickler setzen nun auf den eigenen kde‑builder, um KDE Software direkt zu kompilieren. Das frühere Erstellen von Arch‑Paketen entfällt damit. Die Distribution bleibt zwar technisch […]
Der Beitrag KDE Linux: Abkehr von Zen Kernel und AUR erschien zuerst auf fosstopia.
Getreu dem Motto „Nutze Gutes und schreibe darüber“ stelle ich im heutigen Beitrag die Open-Source-Projekte lab-toolbox, kcli und kcli-toolbox vor.
Die lab-toolbox ist ein Projekt von meinem TAM-Kollegen Chris Huang. Es handelt sich dabei um ein Python-Skript, welches die Erstellung von virtuellen Maschinen (VM) mit Red Hat Enterprise Linux (RHEL) unter KVM/QUEMU vereinfacht und beschleunigt.
Hinter der Idee zu diesem Projekt steckt dieser Anwendungsfall:
Als Plattform-TAMs müssen wir regelmäßig Dinge unter verschiedenen RHEL-Versionen testen. Häufig muss hierzu eine frische VM auf unserem Laptop herhalten, die nach dem Test auch direkt wieder entsorgt werden kann. Dies kann nun bspw. mit dem folgenden Kommando erledigt werden:
./create_vm.py --rhel 10 --hostname rhel10-1 --memory 4096 --vcpus 2
Mit diesem einen Befehl werden folgende Aufgaben ausgeführt:
cloud-init, um:
Ist die VM erstellt, können wir uns direkt mit unserem Benutzer und dessen SSH-Schlüssel einloggen.
Es gibt im Internet viele Wrapper-Skripte, welche die Einrichtung von lokalen VMs vereinfachen sollen. Mir gefällt an diesem besonders, dass es einen meiner häufigsten Anwendungsfälle auf den Punkt bedient. Dazu gibt es ein ausführliches README.md mit einer ausführlichen Dokumentation und einigen Beispielen.
Danke Chris, dass du dieses tolle Projekt mit uns teilst.
Wenn es ein bischen mehr sein darf und z.B. folgende Funktionen gewünscht sind:
Dann ist das Projekt kcli von meinem Kollegen Karim Boumedhel und vielen weiteren Beitragenden vielleicht etwas für euch. Wenn ihr jetzt neugierig geworden seid, werft für weitere Informationen einen Blick in die Dokumentation.
Als TAM und Sysadmin möchte ich auch komplexe Systeme testen, welche häufig aus mehreren VMs bestehen. Da mein Laptop hier schnell an seine Grenzen stößt, möchte ich diese Laborumgebungen auch bei anderen Anbietern bereitstellen können. Hierfür scheint mir dieses Projekt gut geeignet zu sein.
Dies ist der 0,5-Anteil der Vorstellungen in diesem Artikel. Damit ist nicht gemeint, dass es erst zur Hälfte fertig ist. Es ist vielmehr kein richtiges Projekt, sondern lediglich ein Containerfile und ein Custom-Toolbox-Build.
Toolbx ist ein Werkzeug für Linux, welches ein CLI für Softwareentwicklung und Troubleshooting bereitstellt, ohne dass ihr dafür alle notwendigen Werkzeuge auf eurem Host-System installieren müsst. Eine Toolbox basiert auf einem OCI-Container-Image. Es gibt sie in verschiedenen Geschmacksrichtungen. Bitte schaut für weitere Informationen in die Dokumentation.
Bei kcli-toolbox handelt es sich um ein Toolbox-Container-Image, bei dem kcli schon vorinstalliert ist. Das Image wird jeden Dienstag um 03:42 Uhr Ortszeit neu gebaut, um es auf einem aktuellen Stand zu halten.
Mir enthält der Abschnitt „Container Install“ der kcli-Dokumentation zu viele Optionen und aliases, die ich mir nicht merken möchte. Die Builds für EPEL-9 schlagen seit einiger Zeit fehl, so dass ich unter RHEL 9 nicht die letzte Version als RPM nutzen kann. Daher kam mir die Idee zu kcli-toolbox. Ich habe hiermit die aktuellste Version für Fedora 44 und kann diese so natürlich nutzen, als wäre sie als RPM-Paket installiert.
Probiert es doch gerne selbst einmal aus. Hinweise dazu findet ihr in der README.md.
Als Black Swan bezeichnet man Ereignisse, die erst unvorstellbar erscheinen, dann die Welt verändern und im Nachhinein unvermeidlich wirken: Man hätte es doch wissen müssen.
LLMs in der Softwareentwicklung fühlen sich wie so ein Ereignis an, wenn man sich die Geschwindigkeit und Breite der Adaption und ihre Auswirkungen anschaut. Die Erwartung war: Robotik übernimmt erst körperlich schwerere Aufgaben, Automatisierung übernimmt dann die mühsamen, repetitiven Aufgaben und irgendwann wird Programmierung durch No-Code-Werkzeuge verborgen. Was stattdessen passiert, ist das Gegenteil von No-Code: eine Maschine, die unendlich viel Code ausspuckt und den Programmierer als quasi „den“ White-Collar-Beruf imitiert. Aus No-Code wird More-Code. Dadurch wird ausgerechnet zuerst der Programmierer zur Zielscheibe: Die teuren Positionen geraten unter Druck - und das auch noch zuerst.
Wer mit diesen Tools arbeitet, merkt schnell: Man kommt schneller zu Ergebnissen. Auch bei komplexen Anfragen, auch auf bestehenden Codebases.
Die kognitive Arbeit verschiebt sich dabei, sie verschwindet nicht. Früher hat man während des Schreibens ein mentales Modell aufgebaut und die Lösung entstand beim Denken in Code.
Heute bekommt man Code, den etwas anderes gedacht hat. Man muss dieses fremde Modell verstehen, beurteilen und einordnen. Das fordert nicht weniger, nur anders.
Vicki Boykis beschreibt es gut: es wird immer wichtiger, „in Form“ zu bleiben. Datenstrukturen, Pattern, Basics, weil das Urteilsvermögen über Code wichtiger wird als das Schreiben von Code. Wer die Grundlagen versteht, kann bewerten, und wer nur prompten kann, navigiert blind.
Die zweite Auswirkung ist einfacher zu beschreiben: Mehr. Von allem.
Das gilt nicht nur für die produktive Seite: Softwareprojekte werden zunehmend von KI-generierten Security-Reports und Exploits überschwemmt, weil – Überraschung – LLMs sich auch für die Schwachstellensuche einsetzen lassen. Kombiniert man das noch mit einem finanziellen Anreiz, entstehen Auswüchse, die jetzt wieder mühselig eingefangen werden müssen.
Das ist kein Randphänomen, Daniel Stenberg beschreibt es ganz gut. Zusammen mit den beobachteten Lieferkettenangriffen sind die AI Reports vermutlich eines der dominantesten Themen der IT-Sicherheit und des Open-Source-Ökosystems dieses Jahr. Die Beschleunigung trifft nicht nur die produktive und konstruktive Seite.
Wer LLMs als Werkzeug demokratisiert, demokratisiert auch Angriffsfähigkeit. Das ist keine Nebenwirkung. Das ist dasselbe Werkzeug, dasselbe Tempo. Die Last tragen die sowieso schon wenigen Maintainer, Entwickler und Admins, die das verarbeiten müssen.
Entwickler waren teuer. Nicht aus Willkür, sondern weil die Arbeit schwer und das Angebot knapp ist. Die naive Annahme wäre: Wenn das Werkzeug die Arbeit erleichtert, sinkt der Druck. Das Gegenteil passiert.
Coding-Agents senken nicht die Schwierigkeit der Kernarbeit. Verstehen, beurteilen, verantworten – das bleibt schwer. Was sie verschieben, ist die Erwartung. Du hast doch jetzt die Werkzeuge. Die Benchmark ist nicht mehr der gute Entwickler, sondern der gute Entwickler mit Agenten. Also muss jeder für mehr getane Arbeit geradestehen. Gleiche kognitive Last, höheres Volumen obendrauf. Das ist kein neues Muster: Werkzeuge entlasten selten, sie heben die Norm.
Und genau deshalb heizt es sich an. Die Arbeit verdichtet sich auf weniger Schultern. Hiervon kann man fast schon täglich an vielen Stellen lesen, auch wenn KI dabei eher als Korrelation denn als Kausalität erscheint. Trotzdem setzt sich eine Erzählung fest: Jetzt gebe es KI und wer was reißen wolle, müsse jetzt mehr umsetzen. Näher ans Produkt, näher an den Kunden, näher an die Verantwortung.
Und teuer bleibt es ohnehin. Die Ersparnis, die man sich von den Werkzeugen versprach, taucht als neue Rechnung wieder auf: Was an Stellen wegfällt, fließt ins Token-Budget. „Tokenmaxxing“ nennt man das. Nur schrumpft diese Stelle nicht, sie wächst – weil billiger pro Anfrage eben nicht weniger Anfragen heißt, sondern mehr. Das Unternehmen spart nicht, es zahlt woanders, und meist mehr. Der Druck, der dabei entsteht, landet wieder bei denen, die noch da sind.
Die eigentliche Frage ist nicht, was Maschinen übernehmen. Die Frage ist, was danach noch zählt. Bei Open Source zum Beispiel kann es nicht mehr nur die Verfügbarkeit von Funktionalität oder Alternativen zu proprietären Lösungen sein. Code generieren kann man sich selber. Was bleibt, ist das Projekt als kuriertes Ganzes: konsistentes Design, wenig Bugs, eine klare Vision, Vertrauen in die Maintainer. Das sind Gründe, warum man zu einem Projekt greift.
Und das gilt auch für den Beruf selbst. Die Essenz der Informatik war nie das Tippen. Sie war die Transformation: Ein Problem verstehen, eine Lösung entwerfen, die Umsetzung verantworten. Requirements Engineering und Implementierung sind zwei Seiten davon. Anforderungsanalyse erzeugt den erwarteten Zielzustand, der implementiert werden soll: aus Widersprüchen, impliziten Erwartungen und organisatorischen Realitäten. Das ist schwer zu formalisieren.
Wer erkennt die Anforderungen? Wer definiert das Problem, bevor es gelöst werden kann? Wer prüft, ob die Lösung das richtige Problem löst?
Das wird weiterhin Menschen brauchen. Doch sie werden viel mehr umsetzen müssen, daher stellt sich die Frage: Zu welchem Preis? Den werden wir in den nächsten Monaten sehen.
Mozilla hat Version 2.37 seiner VPN-Clients für das Mozilla VPN veröffentlicht. Neben der Entfernung von Telemetrie in allen Clients bringt die neue Version vor allem für Apple-Nutzer einige Neuerungen.
Mit dem Mozilla VPN bietet Mozilla in Zusammenarbeit mit Mullvad sein eigenes Virtual Private Network an und verspricht neben einer sehr einfachen Bedienung eine durch das moderne und schlanke WireGuard-Protokoll schnelle Performance, Sicherheit sowie Privatsphäre: Weder werden Nutzungsdaten geloggt noch mit einer externen Analysefirma zusammengearbeitet, um Nutzungsprofile zu erstellen.
Mit dem Mozilla VPN 2.37 hat Mozilla Telemetrie aus seinen VPN-Clients weitestgehend entfernt. Übrig geblieben ist lediglich eine Diagnostik für Programmabstürze, wofür die bisherige Option weiterhin bestehen bleibt.
Auf iOS kann das Mozilla VPN jetzt via Siri aktiviert und deaktiviert werden. Außerdem kann das Ein- und Ausschalten über die Shortcuts-App von iOS automatisiert werden.
Außerdem auf iOS möglich ist es nun, einen Schalter zum Kontrollzentrum oder dem Sperrbildschirm hinzuzufügen. Auf den neuesten iPhones ist es möglich, das Mozilla VPN als Funktion der Aktionsschaltfläche zu wählen.
Auf macOS werden jetzt auch Nur-IPv6-Netzwerke unterstützt.
Unter Linux mit Gnome und Wayland wurde ein Problem mit den Fensterdekorationen behoben. Ebenso unter Linux behoben wurden Probleme, die in Nur-IPV6-Netzwerken während der Verwendung von Multi-Hop auftreten konnten.
Ansonsten bringt das Update auch wieder Fehlerbehebungen und Verbesserungen unter der Haube.
Der Beitrag Mozilla VPN 2.37 entfernt Telemetrie und bringt viele Neuerungen für Apple-Nutzer erschien zuerst auf soeren-hentzschel.at.
Die auf dem Nix-Packetmanager basierende Linux-Distribution NixOS 26.05 ist verfügbar. Unter den insgesamt 20.442 neuen Paketen sind die Desktop-Umgebungen KDE Plasma 6.6 und Gnome 50. Zudem wird nun standardmäßig systemd für den Startvorgang genutzt.
Die kürzlich veröffentlichte Beta-Version von SteamOS 3.8.6 bietet erstmals nativen HDMI-VRR-Support. Ist das ein Hinweis auf eine baldige VRR-Unterstützung der Steam Machine, sobald AMD HDMI-2.1 in ihren Grafikkartentreiber implementiert hat?
Der Linux Coffee Talk, das lockere Format rund um Linux, Open Source und Technik im Alltag. Ohne Hype, ohne Clickbait, dafür mit echten Einordnungen der Meldungen, Meinungen und einem Überblick über die wichtigsten FOSS-/Linux-News aus Mai 2026. Wir sprechen über Distributionen, Tools, Datenschutz, Nerd-Themen und alles, was uns Linux-User bewegt. Perfekt für alle, die stets […]
Der Beitrag Linux Coffee Talk 5/2026 erschien zuerst auf fosstopia.
Der Linux Coffee Talk ist das entspannte Monatsformat bei fosstopia. Hier fassen wir die spannendsten Ereignisse und Entwicklungen der letzten Wochen für Euch zusammen und ordnen sie bestmöglich ein. Also schnappt euch einen Kaffee, Tee oder Euer Lieblingsgetränk, macht es euch gemütlich und lasst uns den Mai 2026 Revue passieren.
Der Beitrag Podcast: Linux Coffee Talk 5/2026 erschien zuerst auf fosstopia.
Mozilla hat Firefox 151 für Apple iOS veröffentlicht. Dieser Artikel beschreibt die Neuerungen von Firefox 151.
Mozilla hat Firefox 151 für das iPhone, iPad sowie iPod touch veröffentlicht. Die neue Version steht im Apple App Store zum Download bereit.
Künstliche Intelligenz (KI) ist ein Thema, welches mittlerweile omnipräsent ist. Die einen lieben es, andere möchten am liebsten gar nichts damit zu tun haben. Um die Verwaltung von KI-Funktionen einfacher zu machen, hat Mozilla die Firefox-Einstellungen um einen zusätzlichen Bereich mit der Bezeichnung „KI-Einstellungen” erweitert. Dieser neue Bereich bietet einen Ort, um KI-Funktionen zentral zu steuern. Darüber hinaus bietet Firefox einen globalen Schalter zum Ein- und Ausschalten von KI-Funktionen an – welcher auch zukünftige KI-Features abschaltet.
Ansonsten bringt das Update auf Firefox 151 wie imme Detail-Verbesserungen, Fehlerbehebungen sowie Optimierungen unter der Haube. Auch Sicherheitslücken wurden behoben.
Der Beitrag Mozilla veröffentlicht Firefox 151 für Apple iOS mit „KI Kill Switch” erschien zuerst auf soeren-hentzschel.at.
Flatpak könnte künftig stärker auf systemd Services setzen. Diese mögliche Richtung sorgt bei vielen Nutzern für Diskussionen. Besonders betroffen wären Distributionen ohne systemd Unterstützung. Die Entwickler arbeiten derzeit an einer neuen Architektur. Sie nennen das Konzept „Flatpak Next-Generation Sandboxing“ und prüfen grundlegende Änderungen. Ziel ist eine stabilere Verwaltung laufender Anwendungen. Auch die Integration moderner Desktop […]
Der Beitrag Flatpak Entwickler planen tiefere systemd Einbindung erschien zuerst auf fosstopia.
Unser Buch Coding mit KI ist gerade erst erschienen, schon gibt es spannende Neuigkeiten rund um die Ausführung lokaler Modelle:
Adaptive Precision for EXpert Models (APEX) ist ein neues Verfahren zur besonders platzsparenden Quantisierung von MoE-Modellen. Der Platzbedarf sinkt je nach Qualitätsstufe auf die Hälfte gegenüber der herkömmlichen 4-Bit-Darstellungen (Q4_x_x).
Qwopus ist eine neue Variante zu den Qwen-Modellen, bei denen das Fine Tuning mit Claude Opus verbessert wurde.
In Coding mit KI gehe ich kurz auf das Vorgängerkonzept zu MTP ein, auf Speculative Decoding: Dabei führt die Engine (z.B. llama.cpp) zwei Sprachmodelle aus. Das kleinere (schnellere) dient als Draft Model. Während der Token-Generierung macht das Draft Model Vorschläge für die folgenden Token. Das größere, qualitativ bessere Modell überprüft anschließend eine Sequenz mehrerer vorgeschlagener Token auf einmal. Im Idealfall wird die ganze Sequenz akzeptiert. Der Geschwindigkeitsvorteil ergibt sich durch die parallele Verifizierung eines ganzen Token-Blocks. Dazu sind weniger Speicher-Transfers vom VRAM in die GPU notwendig, als wenn jedes Token für sich generiert wird. (Die Token-Generierung wird durch zwei Faktoren limitiert: die Rechenleistung der GPU und die Speicherbandbreite vom VRAM in die GPU-Cores. Speculative Decoding setzt beim zweiten Punkt ein, der oft der limitierende Faktor ist.)
In der Praxis funktioniert das nur mäßig gut: Zum einen ist es schwierig, ein geeignetes Draft Model zu finden. Es muss aus der gleichen »Familie« stammen, aber deutlich kleiner sein, idealerweise etwa um den Faktor zehn. Zum anderen funktioniert Speculative Decoding für Dense Models besser als für Mixture of Experts Models (MoE). Das Problem bei MoE besteht darin, dass bei jedem Token andere »Experten« zum Einsatz kommen können, was den Geschwindigkeitsvorteil von Speculative Decoding teilweise zunichtemacht. Kleinere MoE-Modelle für den Draft-Einsatz haben zudem oft eine andere Experten-Aufteilung, was die Acceptance Rate verringert.
Multi-Token Prediction (MTP) greift die Idee des Speculative Decoding auf. Der entscheidende Unterschied besteht darin, dass ein Modell ausreicht. Ein in das Modell integrierter Layer ist dafür zuständig, rasch ein paar Tokens (üblicherweise 2 bis 4) vorherzusagen. Das Gesamtmodell überprüft dann alle Token auf einmal, was nur unwesentlich mehr Zeit kostet, als ein Token zu berechnen. MTP erspart damit das umständliche Handling mit zwei Modellen.
Speculative Decoding und Multi-Token Prediction sind mit keinerlei Qualitätsverlust verbunden! Es werden exakt die gleichen Ergebnisse erzielt, weil jede Token-Sequenz vollständig kontrolliert und bei Abweichungen verworfen wird. Werfen Sie diesbezüglich einen Blick in das Video von Donata Capitella, das diesen Umstand anschaulich erklärt.
Für den erzielten Geschwindigkeitsgewinn ist der Prozentsatz der akzeptierten Draft Tokens entscheidend. Dieser variiert je Aufgabenstellung: Bei kreativem Text ist die Akzeptanzrate nur mittelmäßig, bei Code hingegen deutlich höher — ganz einfach deswegen, weil Code strengen Regeln folgt und weniger Spielraum als menschliche Sprachen bietet.
Leider ist auch MTP mit Nachteilen verbunden:
Natürlich muss auch die Software MTP unterstützen. Weil viele Programme intern llama.cpp verwenden, wird MTP rasch weite Verbreitung finden.
Schließlich teilt sich MTP einen Nachteil mit Speculative Decoding: Es funktioniert bei herkömmlichen Dense-Modellen besser als bei MoE-Modellen (Mixture of Experts). Die ohnedies schon schnellen MoE-Modelle werden also nur geringfügig schneller oder, wie bei einigen meiner Tests, sogar langsamer. Bei den Dense-Modellen ist dagegen eine spürbare Verbesserung zu bemerken. Bei meinen Tests ca. +65%, bei einigen Benchmarks im Internet bis zu +100%, also eine Verdoppelung der Output-Token-Rate.
MTP ändert nichts an der Input-Verarbeitung (dem Prompt Processing, pp). Schneller wird nur der Output (die Token Generation, tg).
Dense versus Mixture of Experts (MoE): MoE ist schneller, kann aber qualitativ bei gleicher Modellgröße nicht ganz mithalten. Während bei Dense-Modellen immer alle Parameter aktiv sind, nutzen MoE-Modelle nur wenige, stets wechselnde »Experten«, also Subsets mit viel weniger Parametern. Das spart Zeit, aber kein »Experte« ist so gut wie das volle Modell. Dementsprechend sinkt die Qualität der Antworten, nicht massiv, aber spürbar.)
Ich habe MTP mit LM Studio 0.4.14 auf meinem Framework Desktop ausprobiert (AMD Ryzen Max 395 CPU/GPU). Mein Mini-Benchmarktests lautete: »Explain Python dictionaries«. Die getesteten Modelle denken über diese Frage eine Weile nach und produzieren dann einen mehrseitigen, qualitativ sehr hochwertigen Text mit eingebauten Code-Schnipseln.

Ich habe alle Tests mit einem Kontextfenster von 128.000 Token ausgeführt. Bei den MTP-Modellen habe ich die Einstellung MTP Max Tokens = 3 verwendet, also immer drei Tokens auf einmal erzeugt. Alle getesteten Modelle weisen eine 4-Bit-Quantisierung auf (Ausnahme: das APEX-Modell, siehe unten). Als Backend kommt llama.cpp mit Vulkan zum Einsatz.
Draft Token
Modell MoE APEX MTP Output (tg) Acceptance
----------------- ---- ---- ---- ------------ ------------------
qwen-3.6-27b nein nein nein 12,3 Token/s
qwen-3.6-27b-mtp nein nein ja 20,1 Token/s 66,3 %
qwopus-3.6-27b-v2-mtp nein nein ja 19,0 Token/s 63,7 %
qwen-3.6-35b-a3b ja nein nein 69,7 Token/s
qwen-3.6-35b-a3b-mtp ja nein ja 67,1 Token/s 66,6 %
qwen-3.6-35b-a3b-apex-mtp ja ja ja 71,5 Token/s 63,3 %
qwopus-3.6-35b-a3b-mtp ja nein ja 74,2 Token/s 68,2 %
Professionellere Benchmark-Tests hat Donata Capitella durchgeführt (siehe die ersten zwei Links in den Übersicht der Quellen am Ende des Artikels). Interessanterweise ist dort auch bei MoE-Modellen ein spürbarer Geschwindigkeitszuwachs von etwa 30% zu sehen, den ich bei meinen Tests aber nicht nachvollziehen kann.
Die neuen Qwopus-Modelle basieren auf Qwen-Modellen, erhalten aber ein zusätzliches Fine-Tuning mit Claude Opus. Dieses soll den Nachdenkprozess beschleunigen und eine bessere Antwortqualität mit sich bringen. Die erste Versprechung trifft definitiv zu, aber ich bin nicht in der Lage, die Qualität des Modells im Detail zu beurteilen. Subjektiv hatte ich den Eindruck, dass die Unterschiede zu den Qwen-Originalen gering sind.
Zum Denkprozess: Beim Prompt »write a Sudoku solver in Python« denkt qwen-3.6-27b-mtp ca. 1:30 Minuten nach, qwopus-3.6-27b-v2-mtp aber ca. nur 1:00 Minuten. (Die Denkzeit hat eine relativ starke Varianz, weswegen hier genaue Angaben sinnlos sind.) Die resultierende Antwort samt Code ist mehr oder weniger gleichwertig (Backtracking-Algorithmus).
Die Verkleinerung von Modellen bei möglichst geringen Qualitätsverlust ist zu einer eigenen KI-Disziplin geworden. Die Grundidee besteht darin, Milliarden von Parametern (also eigentlich Fließkommazahlen) mit möglichst wenigen Bits darzustellen, ohne dass die Qualität der Ergebnisse allzu sehr leidet.
Der geringere Platzbedarf von Modellen ist insbesondere dann wichtig, wenn der Speicher (VRAM) limitiert ist. Mit einer geschickten Quantisierung läuft ein Modell vielleicht gerade noch auf einer GPU mit 16 GiB VRAM.
Vor ein paar Monaten machte Google mit dem neuen Turbo-Quant-Verfahren Furore. Bei der Recherche für diesen Artikel bin ich nun auf das neue Verfahren Adaptive Precision for EXpert Models (APEX) gestoßen. Das von Local AI entwickelte Verfahren ist speziell für MoE-Modelle optimiert und kompatibel zu aktuellen llama.cpp-Versionen. Die Grundidee besteht darin, dass für jede Parametergruppe eine andere, für den Wertebereich und die Wichtigkeit angepasste Quantisierung verwendet wird. Insofern ist eine klare Bit-Angabe (4 Bit pro Parameter) unmöglich. Technische Details und Benchmarks finden Sie auf der GitHub-Projektseite. Local AI arbeitet daran, Modelle lokal auf Smartphones auszuführen; da ist die möglichst platzsparende Darstellung natürlich wichtig.
Konkret sind APEX-Modelle zum Teil wirklich erheblich kleiner als vergleichbare Modelle mit Q4-Quantisierung, wie sie bei der lokalen Ausführung von Modellen üblich ist. Die folgende Tabelle zeigt lauter Qwen-3.6-Modelle mit jeweils 35 Milliarden Parameter. Das APEX-MTP-Modell benötigt nur halb so viel Platz wie das MTP-Modell mit einer herkömmlichen Q4-Quantisierung.

Leider verrät die Huggingface-Seite des Modells nicht, welche Variante der APEX-Quantisierung verwendet wurde. Es existieren verschiedene Qualitätsstufen, z.B. Quality, Balanced, Compact und Mini. Ich würde vermuten, das Modell ist eher bei Mini als bei Quality angesiedelt.
Modell Quantisierung Größe (Disk)
------------------------ ------------- ------------
qwen-3.6-35b-a3b Q4_K_M 22,0 GB
qwen-3.6-35b-a3b-mtp Q4_K_S 23,0 GB
qwen-3.6-35b-a3b-apex-mtp APEX 11,7 GB (!)
Bei der Ausführung des Modells waren für mich keine nennenswerten Unterschiede erkennbar, weder in der Geschwindigkeit noch qualitativ. Aber nochmals: Das sind subjektive Feststellungen anhand einiger Tests, keine objektiven Benchmark-Tests. Dazu fehlt mir ganz einfach die Zeit.
Ausgewählte Modelle mit MTP und/oder APEX
Technisch/Wissenschaftliche Grundlagen
Die deutsch-französische „Taskforce für die Digitale Souveränität Europas", ins Leben gerufen beim Gipfel zur Europäischen Digitalen Souveränität am 18. November 2025 in Berlin, erarbeitet derzeit eine verbindliche Definition digitaler Souveränität. Diese soll künftig die Grundlage für deutsche und europäische Gesetzgebung sowie für Förder- und Beschaffungsprozesse bilden.
In dem vom Bundeskabinett beschlossenen Gesetzentwurf zur Stärkung der Cybersicherheit sieht der Digitalverband Bitkom zwar “eine Reihe guter Ansätze, mit denen die Cybersicherheit für…
Einer Umfrage der Beratungsfirma Mercer in den USA unter fast 1.000 CEOs diverser Unternehmen zufolge, wollen 99 Prozent in den nächsten zwei Jahren Mitarbeiter durch KI ersetzen.
Das bayerische Staatsministerium für Digitales will einen souveränen Arbeitsplatz mit “Alternativen zu proprietärer Arbeitsplatzsoftware” einführen, sprich ohne Microsoft Office.
Linux steht für Freiheit und Vielfalt an Linux Distributionen. Doch die wachsende Zahl an Distributionen wirft eine alte Frage neu auf. Hilft diese Auswahl wirklich jedem oder entsteht ein Effekt, der eher bremst als befreit. Viele Nutzer lieben die große Auswahl, doch andere fühlen sich schnell allein gelassen oder gar überfordert. Neue Distros erscheinen fast […]
Der Beitrag Hilft oder schadet die große Vielfalt an Linux Distributionen? erschien zuerst auf fosstopia.
Bayern startet ein neues Projekt für mehr digitale Unabhängigkeit. Das Digitalministerium entwickelt einen souveränen Arbeitsplatz, der langfristig proprietäre Lösungen ersetzen soll. Die Initiative folgt dem Beschluss der Ministerpräsidentenkonferenz, die bis 2027 sichere Alternativen fordert. Digitalminister Fabian Mehring betont die Bedeutung digitaler Souveränität für Staat und Verwaltung. Er sieht die öffentliche IT als kritische Infrastruktur, die […]
Der Beitrag Bayern plant eigenen souveränen Arbeitsplatz für die Verwaltung erschien zuerst auf fosstopia.
Google hat aus Versehen Exploit-Code veröffentlicht, der eine noch ungepatchte Schwachstelle in auf Chromium basierenden Browsern wie Googles Chrome, Microsofts Edge, Brave oder Opera ausnutzt.
AlmaLinux 10.2 erscheint als stabile Ausgabe und setzt auf Linux Kernel 6.12. Die neue Version basiert auf RHEL 10.2 erweitert den Funktionsumfang deutlich und stärkt die Unterstützung älterer Hardware. Besonders spannend ist die Rückkehr klassischer Treiber und die Einführung von i686 Paketen für 32 Bit Software. Die Distribution bietet nun Btrfs Boot Support. Damit lassen […]
Der Beitrag AlmaLinux 10.2 bringt Btrfs Boot Support erschien zuerst auf fosstopia.
Der neue COSMIC Desktop 1.0.14 zeigt, wie viel Feinschliff in einem kleinen Update stecken kann. System76 liefert eine Version, die viele Details verbessert und den Desktop im täglichen Einsatz spürbar angenehmer macht. Besonders Nutzer mit mehreren Monitoren dürfen sich über neue Möglichkeiten freuen. Eine der auffälligsten Neuerungen betrifft externe Displays. Der Desktop kann nun die […]
Der Beitrag COSMIC Desktop 1.0.14 bringt Verbesserungen für Alltag und Gaming erschien zuerst auf fosstopia.
Die Diskussion um neue Altersprüfgesetze sorgt seit Monaten für Unruhe in der Open Source Welt. Nun bewegen sich Kalifornien und Colorado und schaffen klare Ausnahmen für freie Betriebssysteme und Community Software. Beide US Bundesstaaten reagieren damit auf deutliche Kritik aus der Linux Gemeinschaft. Kalifornien arbeitet derzeit an einer Anpassung des Digital Age Assurance Act. Der […]
Der Beitrag Kalifornien und Colorado lenken ein: Altersverifizierung trifft Open Source nicht mehr erschien zuerst auf fosstopia.
Mozilla hat mit Firefox 151.0.2 sein wöchentliches Korrektur-Update veröffentlicht. Dieser Artikel beschreibt die Änderungen des neuesten Updates.
Download Mozilla Firefox 151.0.2
Ein Problem unter macOS wurde behoben, bei dem Smartcards und Sicherheitsschlüssel Zertifikate nicht automatisch laden konnten.
Situationen, die bei Verwendung der geteilten Ansicht von Tabs zu einem unerwarteten Schließen von Tabs führen konnten, wurden korrigiert.
Es wurde ein Problem behoben, bei dem das Zwischenspeichern neuer Inhalte nicht mehr funktionierte, sobald der Festplatten-Cache voll war. Dies konnte dazu führen, dass Ressourcen bei jedem Besuch erneut aus dem Netzwerk heruntergeladen wurden.
Ein möglicher Absturz unter Windows wurde behoben, der bei Eingabe von vereinfachtem Chinesisch mit der Sogou-Eingabemethode auftrat. Außerdem wurde ein Absturz behoben, der Nutzer von macOS 26.5 betroffen hat.
Eine Reihe von Webkompatibilitätsproblemen wurden gelöst.
Auch in Zusammenhang mit dem KI-Feature Smart Window sowie der VPN-Integration wurden noch einmal Verbesserungen vorgenommen.
Leider hat das Update auf Firefox 151.0.2 eine Regression eingeführt, die dafür sorgt, dass die VPN-Schaltfläche in der Navigationssymbolleiste viel zu groß erscheint. Eine Korrektur hierfür befindet sich bereits in Arbeit.
Der Beitrag Mozilla veröffentlicht Firefox 151.0.2 erschien zuerst auf soeren-hentzschel.at.