Nutzt ihr KI lokal? Wie ist euer Setting!

Dr.Big · 6. Mai 2026 um 15:26

Hallo zusammen,
ich experimentiere seit einer Weile mit lokaler KI und möchte mein Setup vorstellen!
Wer nutzt das noch und wie ist euer Setting? Mich interessiert vor allem welche Hardware und Software ihr dafür einsetzt!

Mein Setup:

Ich betreibe alles selbst gehostet ohne Cloud:

MacBook Pro M1 Max 64GB – läuft als KI-Server
Proxmox (Homeserver) mit LXC-Containern:
- SearXNG – private Suchmaschine ohne Tracking
- Open WebUI – Chat-Frontend, ähnlich ChatGPT aber lokal

Als Inference-Engine nutze ich oMLX direkt auf dem Mac – ein schlanker Inference-Server speziell für Apple Silicon (Alternative zu Ollama), optimiert für Apple Silicon.

Modelle – aktuell teste ich:

Qwen3-14B für Alltag und Websuche
Qwen3.6-35B für komplexe Aufgaben
DeepSeek-Coder für Code

Meine Fragen an euch:

Was nutzt ihr als KI-Server?

Mac Mini / MacBook mit Apple Silicon?
PC mit Nvidia GPU?
NAS (Synology, TrueNAS)?
Mini-PC (N100, Beelink)?
Oder doch Cloud (ChatGPT, Claude)?

Welche Software nutzt ihr – Ollama, LM Studio, oMLX?

Welche Modelle laufen bei euch gut?

Habt ihr KI in Home Assistant (Sprachassistenz etc.) integriert?

Bin gespannt auf eure Antworten!

geloeschterUser1 · 6. Mai 2026 um 15:46

In der Kostenlosen Version, alles andere ist mir für den Zweck, für den ich es Nutze, einfach zu teuer, ich verdiene ja nicht mein Geld damit

Schorsch · 6. Mai 2026 um 15:53

Bei mir läuft es so ähnlich, wie bei @geloeschterUser1 .
Gemini - ChatGPT - Claude
Für die Plausibilität stelle ich die gleiche Frage an alle KI’s.
Da ich keine geschäftlichen oder intimen Fragen stelle, habe ich auch kein Problem damit.
Ok, die KI erstellt durch meine Fragen ein Profil von mir - ist mir (bisher) egal.
Ein Punkt ist auch, dass mein Verlauf (Historie) auch auf dem Handy oder Tablet verfügbar ist.
Ob das bei einer lokalen Lösung auch (überall) geht, weiß ich nicht nicht.

MarzyHA · 6. Mai 2026 um 16:25

Hast du dein MacBook Pro dann die ganze Zeit eingeschaltet rumstehen?
Sowas würde sich bei mir auch nicht lohnen, auch wenn ich es super gerne hätte, vor allem für den HA-Assist wäre das sicher nett.
Ansonsten nur so zum Rumchatten, nutze ich wie die anderen hier auch, die üblichen Chatbots. Das würde sich sonst überhaupt nicht lohnen, da lokale KI ja ziemlich hohe Hardware-Anschaffungskosten und Stromkosten verursacht. Und wenn dann die Online-Modelle immer noch besser sind, ist es mir das nicht Wert. Als Privatperson sehe ich da auhc wenig Datenschutzbedenken, wenn es rein ums Chatten geht. Bei einem HA-Assist über den man mit dem Smart-Home interagiert, sieht die Sache natürlich schon wieder anders aus.

DukeNukem · 6. Mai 2026 um 16:29

Hab auf meinem Rechner Ollama installiert, ist aber laaaaaahm-arsxxig.

Also weiterhin Google KI, hat bis lang auch immer gereicht.

Ich wollte eigentlich auch einen PC aufsetzen aber der braucht etwas Wumps.

Solange die Preise für die Hardware so überteuert sind mache ich nix weiter.

MarzyHA · 6. Mai 2026 um 16:37

Welche Hardware hat denn dein PC? Ich habe ollama mal auf meinem PC mit einer 4060 und 32GB RAM probiert und das war recht flott

DukeNukem · 6. Mai 2026 um 16:42

Alten ITX mit 3G 4kerne und 16 G Ram eingebaute Grafik.
Bis ein Ergebniss ausgespuckt wird bin ich 70 Jahre alt…

Laut meiner Info’s sollte es wie bei dir mind. 32G Ram sein und
eine Vernünftige Grafikkarte und eine CPU mit mehr als nur 6 Kerne.

MarzyHA · 6. Mai 2026 um 17:01

Ah okay, dann ist das klar, dass das ewig dauert
Vorallem Grafikarte ist ja für KI sehr wichtig (es sei denn man hat einen Apple Silicon Chip). Mit einer eher schwächeren CPU mit integrierter Grafikeinheit kommt man da tatsächlich nicht weit.

Ich habe Ollama letzendes aber sowieso wieder deinstalliert, weil es einfach unpraktisch war. Wenn man eh schon am PC sitzt kann man auch einfach ein besseres Online-Modell nutzen.

Dr.Big · 6. Mai 2026 um 17:21

mehr oder weniger ist das ja mein „Arbeitsgerät“ und der läuft eigentlich fast immer! Das nutze ich KI aber „hauptsächlich“ fürs coden und zur Recherche!
Für eine geplante Integration Home Assistant und andere Spielereien habe ich auch noch eine „Ollama“ Testinstallation auf Proxmox aber da fehlt noch die richtige GPU dazu! Ist aber schon bestellt , wird gerade produziert! Stand heute! Wenn das dann da ist geht es an die Home Assistant Integration, wobei mich da erst einmal „saubere lokale Sprachassistenz“ interessiert! KI sollte da auf keinen Fall zu viel Kontrolle bekommen!

Beruflich habe ich aktuell auch mit der Integration „lokaler KI“ bei einem meiner Kunden zu tun. Dort wird aber sehr viel mit sensiblen personenbezogenen Daten gearbeitet so das „wirklich alles“ im Haus bleiben muß! Glücklicherweise darf das ganze auch durchaus etwas an Geld kosten!
Mehr darf ich darüber aber nicht verraten, sorry!

schreibsi · 6. Mai 2026 um 18:08

ich verwende claude in der pro version, auch beruflich. daher fällt das nicht ins gewicht. in ha nicht integriert, sondern zugriff über mcp-token nur über vpn. also auf einem einzigen rechner konfiguriert und erst, wenn dieser im vpn eingewählt ist und die vpn ip bekommt, gestatte ich zugriff.

was die paranoia angeht, das muss jeder für sich selber entscheiden. mit einem smartphone bin ich sowieso gläsern und wenn da die companion-app drauf ist, gehen daten auch raus.

HAndy · 6. Mai 2026 um 18:47

Angeregt durch die Veröffentlichung des rein lokalen Modells Gemma 4 habe ich mich auch mal daran versucht.
Ich habe auf meinem MacBook M4 Ollama installiert und verwende das Modell gemma4:e2b. Das läuft sehr gut und ausreichend schnell. Und es läuft wirklich rein lokal - kann nicht mal die Uhrzeit oder das aktuelle Wetter aus dem Internet erfragen.
Ich habe es testweise auch mal in HA für die Sprachsteuerung eingebunden. Auch das funktioniert, aber bei weitem nicht so flott wie über die Nabu Casa Cloud.
Von dem Ergebnis ermutigt habe ich das gleiche auch mal in einem LXC Container auf meinem Proxmox installiert. Das Ergebnis war aber, wie erwartet, ernüchternd. Selbst die kleinste Frage ist in der Lage das gesamte System so auszubremsen, dass selbst Proxmox nicht mehr erreichbar ist.

MarzyHA · 6. Mai 2026 um 19:10

Ja, das kann man vergessen.. Dann musst die dir auch so eine GPU wie Dr. Big ordern :))

Dr.Big · 6. Mai 2026 um 19:19

Die Websuche habe ich mit

SearXNG über
Open WebUI
gelöst.

Da händelt Open WebUI die Suche über SearXNG und übergibt die Suchergebnisse direkt ans LLM!

Dr.Big · 6. Mai 2026 um 19:20

Lade ich mir gerade mal runter → schaue ich mir an! Danke..

HAndy · 6. Mai 2026 um 19:22

Na ja, das will ich ja gerade nicht. Diese KI soll wirklich nur rein lokal laufen.

Dr.Big · 6. Mai 2026 um 19:28

Dann natürlich nicht!

„Wer das eine will muss das andere mögen!“

Mit meiner Variante hast du aber wesentlich mehr Kontrolle darüber.

Aber wenn du es komplett trennen willst dann natürlich nicht!

Kannst in Open WebUI auch Websuche abschalten

einfach den „kleinen Globus“ deaktivieren!

jayjojayson · 6. Mai 2026 um 21:28

Zwei Doofe ein Gedanke.. @Dr.Big Danke für die Erstellung des Themas.

Dann fange ich mal an zu berichten. Aktuell nutze ich ein MacStudio mit 36GB RAM. Das läuft wesentlich besser wie der mac mini (5x höherer Speicherdurchsatz). Wichtig ist mir dabei auch der Aspekt des Stromverbrauches. Wenn die KI dann wirklich mal längere Zeit läuft, soll sich der Verbrauch in Grenzen halten. Daher bin ich jetzt auch beim Mac gelandet. Mein normaler PC mit RTX4070 mit 12GB DDR6 und I9 9900K ist ebenfalls schon ziemlich flott, aber auch beschränkt wegen dem kleinen VRAM Speicher. Auf jeden Fall zieht der Rechner dann ordentlich Leistung im Vergleich zum Mac und ist nicht für 24/7 ausgelegt. Soviel zur Technik.

online

Ich verwende diverse KI-Modelle und kommt auch immer wieder auf den Einsatzzweck an.
Diese nutzte ich online im Browser oder als Tool auf dem PC/Mac. Alle in der kostenlosen Variante.

Gemini
Daily driver, für Fragen oder kleinere Aufgaben (Bilderstellung, Texte, manchmal HA Zeug)
Ist halt auch auf dem Handy immer dabei, daher einfache Nutzung für solche Dinge.

chat-gpt
Für Umwandlung von Texten in Markdown (wobei das gemini jetzt auch endlich kann)
HA Automatisierung, die dann an meine Sensoren angepasst werden
kleine Codeaufgaben die nicht lang sind (Phyton, Websiteoptimierung oder -Seiten)

claude
schon wirklich bemerkenswert wenn es um Code Sachen geht, nutze aber nur die Browservariante, kein Cowork oder Claude Code. Dafür nutze ich VScode.

Bei github habe ich eine subscription für 10€ und wurde zum Glück nicht gekickt. Aktuell kann man dort keine Abos mehr abschließen. Darin ist dann gpt und sonnet enthalten mit Kontingent.

local

Unter Proxmox läuft eine VM mit dem hermes agent (ganz ähnlich openclaw). Hier nutze ich für daily Sachen die freien LLM von openrouter. Da gibt es immer wieder neue und sind auch wirklich ganz gute dabei. Vor kurzem war auch qwen3.6 eine zeitlang kostenlos nutzbar. Der Agent kann dann schon bessere Aufgaben übernehmen (nutze ich für Arbeit mehr wie privat). Aber der kann dann seine zugeteilten Aufgaben abarbeiten und macht seine Arbeit im Hintergrund. Läuft über telegram und kann daher auch von überall gesteuert werden. Alles was dann komplizierter wird mache ich mit lokalen Modellen, die in LMStudio laufen. oMLX kannte ich noch nicht! Danke dafür, gleich mal installiert. Muss ich aber noch testen im Vergleich zum LMStudio. Trotzdem ist das mit dem Agent mehr Spielerei für mich.

Fürs Programmieren habe ich früher schon vscode genutzt, also ab 2016 oder so. Davor war Notepad++ mein geliebtes Tool und ist auch heute noch im Einsatz. Damit komme ich persönlich besser klar, wie mit dem Agenten, weil ich den code direkt sehe, eingreifen und mit der KI sozusagen zusammenarbeiten kann.

Die lokalen Modelle werden immer besser und bin gespannt wo da die Reise hingeht. Ich habe für mich immer einen kleinen Test, sobald ein neues Modell zum Einsatz kommt. Das lässt sich dann gut vergleichen und man hat direkt eine Vorstellung wie schlau die KI ist. Kommt natürlich auch wieder auf dein Einsatz an, aber bei mir ist das zum großen Teil Code. Kann das Modell die Aufgabe nicht erfüllen, fliegt es auch schon wieder runter.

Prompt:

Erstelle bitte im Ordner mit Namen XXX eine standalone HTML Page die mir das Sonnensystem mit seinen Planeten zeigt. Die Seite soll aus drei Dateien index.html, css und javascript bestehen. Es soll einen Slider geben, so dass man die Anziehungskraft der Sonne einstellen kann.

Mehr wird nicht mitgeteilt und dann lasse ich mich überraschen, alles nach dem ersten Versuch.
Hier mal die Ausgabe von meinen zu letzt getesteten Modellen, alle in Q4:

gpt-oss-20b

gemma4 26B-A4B

gemini (weil die KI jetzt auch Dateien direkt erstellen kann) (nicht lokal)

qwen3.5-9B

qwen3.6-27B

Testsieger ist eindeutig qwen3.6, schon allein die detaillierte Planetendarstellung schaut richtig gut aus. Qwen3.5 ist dicht auf, aber die Animation war falsch berechnet und daher haben sich die Planeten extrem schnell gedreht. Im Code waren das nachher drei oder vier Zeilen ändern, aber wenn ich ihm das gesagt habe, hat er es trotzdem nicht hinbekommen. Gemini und Gemma haben die Seiten soweit auch korrekt erstellt und die Animationen funktionieren, also besser wie qwen3.5.

Zum Vergleich claude opus4.7 (online)

Aber hier wurde die Anziehungskraft falsch erstellt. Die Sonne wurde größer, aber die Umlaufbahnen haben sich nicht geändert. Erst nach Nachfrage wurde es korrigiert.

Noch ein Abschluss, wer eine offene Cowork Plattform sucht, kann sich mal AionUi anschauen. Damit kann man wiederkehrende Aufgaben einrichten, kann einen Webserver starten, so dass auch Messanger (Telegramm und Co) mit der Aion genutzt werden können. Es können sowohl lokale wie cloud Modelle verwendet werden und es ist ein nahtloser Übergang zwischen cloud und local session möglich. Habe ich auch gerade mal ein paar Tage installiert, aber gefällt mir bisher wirklich gut!

GooglyEyz · 6. Mai 2026 um 21:55

Perplexity mit Claude Sonnet 4.6 als Model, Codex, Hermes Agent. Wobei Hermes Agent zur Zeit mein absolutes KI Lieblingsspielzeug ist.

Hat bei mir Openclaw komplett ersetzt. Ist deutlich performanter und zerlegt sich nicht bei jeden Update aufs neue. Hermes hat Zugriff auf SearXNG für Websuche und auf Openviking als externes Memory. Läuft alles in LXCs auf meinem Proxmox Server. Als LLM verwende ich deepseek-v4-flash im Opencode Go Abo. Das Abo kostet im ersten Monat nur 5 $ und Limits reichen locker aus für mich.

Dr.Big · 6. Mai 2026 um 22:19

Na denn mal ein Test!

Qwen3.6-35B-A3B-UD-MLX-4bit

erstellt in Visual Studio Code über CLINE Extension!

jayjojayson · 7. Mai 2026 um 05:09

Moin, schaut sehr gut aus. Für das 35B Modell reicht mein Speicher leider nicht mehr aus, wenn ich den Context höher Stelle und einen gewissen Context braucht man ja, sonst kommt nichts ordentliches heraus.