Nutzt ihr KI lokal? Wie ist euer Setting!

mafe68 · 10. Mai 2026 um 17:41

Habe auch lange herum gemacht bis ich mir das neue NAS geholt habe, mal sehen wie gut das es sich schlägt mit Ollama und den Modellen!

mafe68 · 12. Mai 2026 um 06:21

Teste gerade die verschiedenen Free Modelle die lokal oder auch extern laufen in OpenWebUi mit immer der selben Frage! Da kommt teilweise sehr viel Blödsinn dabei raus! Da sieht man dann den großen Unterschied bei den Modellen!
Wie sind eure Erfahrungen mit den free Modellen? Welche würdet ihr weiter empfehlen?

Dr.Big · 12. Mai 2026 um 07:26

Hier hat man ein recht gutes „unabhängiges Ranking“ der aktuellen Modelle!

Dr.Big · 14. Mai 2026 um 08:38

Kleines bisschen “OffTopic” aber passt gut zum Thema!

Für mein Kundenprojekt “Lokale In House KI” habe ich nächste Woche eine interessante Online Vorführung von diesem Teil →

Für Privat ja rein „preistechnisch“ nicht zu empfehlen, aber schauen wir mal was es so kann!

jayjojayson · 14. Mai 2026 um 11:51

Alter Vater, was du dir so anschauen darfst. Wo bekommt man solche Kunden her.
Die Nvidia Box habe ich mir auch schon ein paar Mal angeschaut, aber der Preis schreckt doch immer wieder ab. Wobei nach heutigen Maßstäben zum RAM. Da möchte ich auf jeden Fall einen Bericht von dir.

jayjojayson · 27. Mai 2026 um 20:40

So ich habe endlich mal meine Liste vervollständigt und jetzt meine gesamten lokalen LLM durchgetestet. Mein Gefühl für gemma4 im Alltag liegt schon gut, aber werde dann jetzt erstmal auf qwen3.6-35-a3b-mlx-4bit umsteigen. Mal schauen wie das im Alltag läuft. Der Vorteil für gemma ist bei mir, dass mehr Speicher überbleibt zum Arbeiten.

Meine Mitschriften und Screenshots habe ich etwas aufarbeiten lassen, so haben wir ein schöne Übersicht der aktuellen Modelle. Generell kann ich auf jeden Fall sagen, dass Modelle mit MLX bei Macs eindeutig die bessere Wahl sind und man sollte nach Möglichkeit ein Modell mit A3B/A4B im Namen wählen, die sind um einiges schneller.

Die Aufgabe

Ich habe 8 lokale LLMs mit einer einzigen, klar definierten Coding-Aufgabe getestet:

„Erstelle bitte im austausch-Ordner einen neuen Ordner mit Namen Sonnensystem und darin eine standalone HTML-Page, die mir das Sonnensystem mit seinen Planeten zeigt. Die Seite soll aus drei Dateien bestehen: index.html, CSS und JavaScript. Beachte die Newton-Gesetze. Es soll einen Slider geben, sodass man die Anziehungskraft der Sonne einstellen kann."

Was wurde bewertet:

Korrekte Dateistruktur (3 Dateien)
Alle Planeten vorhanden und sichtbar
Newtonsche Physik korrekt implementiert (F = G × M × m / r²)
Stabile Umlaufbahnen (keine wegfliegenden Planeten)
Funktionierender Gravitations-Slider
Ansprechende Optik

Ergebnisübersicht

#	Modell	Gen. tok/s	Prompt tok/s
1	Qwen3.6-35B-A3B-UD-MLX-4bit	40.3	250.1
2	gemma-4-26b-a3b-4bit	36.7	331.9
3	Qwen3.5-35B-A3B-4bit	43.4	268.9
4	Qwopus3.6-35B-A3B-v1-mlx-4bit	41.4	273.3
5	Qwen3-Coder-30B-A3B-Instruct-MLX-4bit	19.7	143.2
6	Qwen3.5-9B-Claude-4.6-HighIQ-MLX-10bit	20.3	120.0
7	Qwopus3.6-27B-v1-preview-MLX-4bit	18.7	135.2
8	Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit	12.2	64.9

Statistiken im Überblick (oMLX Dashboard)

Modell	Total Prefill	Cached Tokens	Cache Efficiency	Gen. tok/s
Qwen3.6-35B-A3B-UD-MLX-4bit	359.591	286.720	79,7 %	40,3
gemma-4-26b-a3b-4bit	106.312	80.896	76,1 %	36,7
Qwopus3.6-35B-A3B-v1-mlx-4bit	192.484	155.648	80,9 %	41,4
Qwopus3.6-27B-v1-preview-MLX-4bit	3.848.462	3.433.728	89,2 %	18,7
Qwen3.5-27B-Claude-4.6-Opus-Distilled	42.715	18.432	43,2 %	12,2
Qwen3-Coder-30B-A3B-Instruct-MLX-4bit	750.051	623.872	83,2 %	19,7
Qwen3.5-35B-A3B-4bit	290.669	243.712	83,8 %	43,4
Qwen3.5-9B-HighIQ-MLX-10bit	352.371	280.576	79,6 %	20,3

Einzelbewertungen

Qwen3.6-35B-A3B-UD-MLX-4bit — BESTANDEN

Das Beste aus dem Test. Das Modell hat die Aufgabe vollständig und korrekt gelöst:

Wunderschöner Sternenhintergrund
Alle 8 Planeten sichtbar und in stabilen Ellipsenbahnen
3 Slider: Anziehungskraft, Simulations-Geschwindigkeit, Ansichts-Skalierung
Velocity-Verlet-Integration korrekt implementiert
Planeten-Legende rechts
Newton-Formel F = G × M × m / r² unten eingeblendet
Physik verhält sich beim Slider-Eingriff exakt wie erwartet

Leistung: 40,3 tok/s Generation | Cache-Effizienz: 79,7 %

gemma-4-26b-a3b-4bit — BESTANDEN

Gemma 4 liefert ebenfalls eine funktionsfähige, korrekte Lösung ab:

Strahlend leuchtende Sonne (schöner Glow-Effekt)
Planeten mit Beschriftung (Merkur, Venus, Erde, Mars, Jupiter)
Gravitations-Slider mit Live-Wert
Newtonsche Gravitation mit Verlet-Methode
Physik reagiert korrekt auf Slider-Änderungen

Optisch etwas schlichter als der Sieger, aber physikalisch einwandfrei. Besonders bemerkenswert: 331,9 tok/s beim Prompt Processing – schnellstes Modell im Test!

Leistung: 36,7 tok/s Generation | Cache-Effizienz: 76,1 %

Qwen3.5-35B-A3B-4bit — Schön aber fehlerhaft

Das visuell eindrucksvollste Ergebnis im Test – aber leider mit fehlerhafter Physik:

Hervorragendes UI: Gradient-Hintergrund, animierter Titel „Mein Sonnensystem", Buttons
Slider mit Label „Anziehungskraft der Sonne (G-Variable)"
Kreisbahnen sichtbar gezeichnet
Physik jedoch instabil: Planeten verlassen die Bahnen oder kreisen mit falschen Geschwindigkeiten
Die Simulation hält keiner Langzeitbeobachtung stand

Man merkt, dass dieses Modell stark auf CSS/UI fokussiert, aber die numerische Integration nicht korrekt umsetzt. Schade – es war nah dran!

Leistung: 43,4 tok/s Generation (schnellstes im Test!) | Cache-Effizienz: 83,8 %

Qwopus3.6-35B-A3B-v1-mlx-4bit — Leere Bühne

Das Modell generiert Code mit dem richtigen Framework – Newton-Formel, Verlet-Integration, Gravitations-Slider mit Formel-Anzeige – aber die Planeten erscheinen nicht auf dem Canvas:

Slider und Newton-Formel korrekt dargestellt (F = G · MSonne · mPlanet / r²)
Planetenlegende rechts vorhanden (Merkur bis Neptun)
Canvas bleibt nahezu leer – nur Merkur als winziger Punkt sichtbar
Initialisierungsfehler im JavaScript (Planeten werden nicht gerendert)

Das Grundgerüst stimmt konzeptionell, scheitert aber an der Implementierung.

Leistung: 41,4 tok/s Generation | Cache-Effizienz: 80,9 %

Qwen3-Coder-30B-A3B-Instruct-MLX-4bit — Flucht aus dem Canvas

Interessant: Das ist ein reines Coder-Modell – und trotzdem scheitert es an der Physik:

Alle Planeten generiert und mit Farben versehen
Slider unten mit Label „Gravitationsstärke (G)"
Planeten fliegen in den ersten Sekunden aus dem sichtbaren Bereich
Canvas-Größe zu klein, Simulation skaliert nicht korrekt
Physik instabil – Anfangsgeschwindigkeiten falsch berechnet

Mit 750.051 Prefill-Tokens war dies das token-intensivste Modell nach dem 27B-Preview.

Leistung: 19,7 tok/s Generation | Cache-Effizienz: 83,2 %

Qwen3.5-9B-Claude-4.6-HighIQ-MLX-mixed-10bit — Theorie ohne Praxis

Ein Kuriosum: Das Modell erklärt die Newtongesetze auf der Seite besser als alle anderen – kann sie aber nicht implementieren:

Titel „Interaktives Sonnensystem"
Newton-Gesetze auf der Seite erklärt (1., 2., 3. Gesetz + Gravitationsformel)
Planeten-Tabelle mit Radien und Geschwindigkeiten
Planeten werden nicht animiert / Simulation läuft nicht
Nur die Sonne als leuchtende Kugel sichtbar

Der 9B-Parameter-Footprint macht sich hier deutlich bemerkbar: Zu klein für die komplexe Physik-Implementierung.

Leistung: 20,3 tok/s Generation | Cache-Effizienz: 79,6 %

Qwopus3.6-27B-v1-preview-MLX-4bit — Token-Fresser ohne Ergebnis

Das teuerste Experiment im Test – mit dem enttäuschendsten Verhältnis:

Sonne im Zentrum sichtbar
3 Slider vorhanden (Anziehungskraft, Simulations-Geschwindigkeit)
Nur Saturn ist als entfernter Planet sichtbar – er flieht aus dem System
Restliche Planeten nicht sichtbar oder bereits außerhalb des Canvas
Physik fundamental fehlerhaft: Keine stabilen Orbits

Leistung: 18,7 tok/s Generation | Cache-Effizienz: 89,2 %

Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit — Planeten im freien Fall

Das klassische „Ich kenne die Formel, aber nicht die Anfangsbedingungen"-Problem:

Sonne sichtbar
Alle Planeten generiert, korrekte Farben
Slider vorhanden
Planeten fallen senkrecht nach unten – keine Tangentialgeschwindigkeit gesetzt
Keine Orbits, nur gravitativer freier Fall
Mit Abstand niedrigste Performance (12,2 tok/s)

Die Distillation von Claude 4.6 Opus auf Qwen3.5-27B hat offensichtlich bei der physikalischen Problemlösung erhebliche Verluste hinterlassen. Cache-Effizienz von nur 43,2 % deutet zudem auf ineffizienten Kontext-Aufbau hin.

Leistung: 12,2 tok/s Generation | Cache-Effizienz: 43,2 % (schlechtester Wert)

Gesamtstatistik – oMLX Session

Über alle 8 Tests wurden insgesamt verarbeitet:

~6,37M Input-Tokens
~103K Output-Tokens
~5,32M gecachte Tokens

Der Token-Verbrauch ist stark ungleich verteilt – das 27B-Preview-Modell allein hat durch seine massive Kontextverarbeitung einen Großteil der Gesamtlast verursacht.

Fazit & Analyse

Was unterscheidet Erfolg von Misserfolg?

Die Aufgabe verlangte mehr als nur das Kopieren von Physikformeln. Entscheidend war:

Korrekte Anfangsgeschwindigkeiten für stabile Kreisorbits: v = √(G × M / r)
Numerische Integration
Skalierung – reale Abstände auf Canvas-Pixel korrekt abbilden
Simulation Loop mit requestAnimationFrame

Erkenntnisse

Beobachtung	Detail
Größere Modelle ≠ bessere Physik	Der 9B-Distillat versagt, der 26B-Gemma besteht
Coder-Modelle keine Garantie	Qwen3-Coder-30B scheitert trotz Spezialisierung
Token-Effizienz ≠ Qualität	Qwopus-27B-Preview: 3,8M Tokens, trotzdem fail
UI-Fokus kann Physik verdrängen	Qwen3.5-35B baut tolles UI, vergisst die Mechanik
Schnellstes Modell besteht	Qwen3.5-35B mit 43,4 tok/s ist schnellstes, aber…
Architektur zählt	MoE-Modelle (A3B) zeigen gute Performance/Qualität

Empfehlung

Für komplexe physikalische Simulations-Aufgaben im lokalen Betrieb:

Erste Wahl: Qwen3.6-35B-A3B-UD-MLX-4bit
Beste Balance aus Qualität, Physikverständnis und Performance

Gute Alternative: gemma-4-26b-a3b-4bit
Schnellstes Prefill (331,9 tok/s), korrekte Physik, etwas schlichteres UI

Testumgebung

Hardware: Apple Silicon (Mac M1 Max, 32GB RAM, 1TB)
Server: oMLX (lokaler MLX-Inference-Server)
Quantisierung: 4bit (außer HighIQ: mixed 10bit)
Prompt: Einmalig, ohne Nachbesserung (Zero-Shot)
Größe LLM Bedingt durch 32GB RAM gehen bei keinen größeren Modelle

Dr.Big · 27. Mai 2026 um 20:51

Da hast du ja ordentlich Aufwand betrieben!

Mein aktuelles bevorzugtes Modell → Qwen3.6-35B-A3B-UD-MLX-4bit (21,2 GB)

Man sollte ihn bloß nicht zu sehr mit „systemkritischen Fragen“ über China nerven!
Da kommen zum Teil sehr „obskure“ Antworten!

Der Geopolitik-Filter: Da die Qwen-Reihe von Alibaba entwickelt wird, ist sie fest an die strengen regulatorischen Richtlinien der chinesischen Cyberspace-Administration (CAC) gebunden. Sobald sensible Trigger-Begriffe rund um die Staatsführung, Taiwan oder historische Ereignisse fallen, schaltet das Modell blitzschnell vom Modus „genialer Logik-Assistent“ um auf „hochdiplomatischer Staatsbeamter“. Das Ergebnis sind dann diese typisch hölzernen, ausweichenden oder schlicht skurrilen Antworten.

jayjojayson · 27. Mai 2026 um 20:54

Das ist auch mein Testsieger und läuft noch gerade so bei mir. Werde ich jetzt die Tage mal als daily für den hermes agenten laufen lassen und beobachten.

Da ich wenig nach Politik frage, stört mich das nicht wirklich.

Dr.Big · 27. Mai 2026 um 20:58

Ich lade da gerade testweise eine etwas größere „Cuda“ Variante auf die Spark, will mal sehen ob das/was „Besser“ geht!?

jayjojayson · 27. Mai 2026 um 21:01

Wäre mal interessant, was das für ein Sprung ist. Aber man bekommt auch von 13b auf 35b den Unterschied schon gut mit. Auf 8bit könntest du noch gehen, 16 bringt wenig wie ich so gelesen habe.

Hannes1 · 29. Mai 2026 um 04:48

Hoffentlich darf ich das hier posten, sonst bitte löschen.

Kennt das wer bzw. hat das wer getestet:

GitHub - nicedreamzapp/claude-code-local: Run Claude Code 100% on-device with local AI on Apple Silicon. MLX-native Anthropic-API server, 65 tok/s Qwen 3.5 122B, Llama 3.3 70B, Gemma 4 31B. Private, offline, airgap-ready. Built for NDA / legal / healthcare workflows. · GitHub

Schaut sehr interessant aus….

Habe gerade auch noch gefunden, dass Modells von Huggingface auf Ollama laufen. Vielleicht für den einen oder anderen interessant, da die Indizierung von mlx Modellen auf der Ollama Webseite nicht berauschend ist:

Use Ollama with any GGUF Model on Hugging Face Hub · Hugging Face

Dr.Big · 29. Mai 2026 um 07:27

Sehr interessant! Das muss ich mir mal näher anschauen!

jayjojayson · 29. Mai 2026 um 09:30

Danke fürs Teilen. Werde ich mir auch mal anschauen, aber dahinter steckt auch eine TUI, oder? Wer eine GUI vor der TUI bevorzugt kann auch gerne hier mal schauen: