Lokaler Sprachassistent mit Home Assistant: Fragen und Ergänzungen

Hi zusammen,

dies ist mein erster Beitrag. Schön, dass es diese Community gibt!
Ich hoffe zukünftig auch etwas beitragen zu können. :smiley:

Für alle die sich einen lokalen Sprachassistenten bauen wollen kann ich diese Anleitung sehr empfehlen. Bei mir läuft das bisher recht gut.

Allerdings habe ich ein paar Fragen bzw. Erweiterungen die ich gerne ergänzen möchte - vielleicht habt ihr hierzu eine Idee:

Ich beginne mal mit Folgendem:
Weiß jemand, wie ich einen Aktivierungston ergänzen kann? Es soll also ein kurzer Ton abgespeilt werden nachdem man das Aktivierungswort gesagt hat.

Danke für eure Antworten!

Ich würde lieber direkt auf die gerade vorgestellten HA-Sprachassistenten setzen.

Die bieten dann die Möglichkeit, die Auswertungen lokale auf den HA-Server zu machen ( langsam ) oder über Nabucasa-Cloud ( schnelle Variante ).
Locale Nutzung setzt dann einen entsprechend schnellen HA-Server voraus, RapberryPi reicht da wohl kann, das für die Verzögerungen von rund 3 - 5 sec vom Sprachbefehlt bis zur Ausführung ( lt. der ersten Videos ).

Ich bin mal gespannt auf die Teile, hab mir zwei bestellt, wobei die aber erst frühestens mitte Januar kommen sollen - waren direkt nach vorstellung ausverkauft .

1 „Gefällt mir“

Ich werde mir auch den Sprachassistenten von Nabu Casa und auch den Satellite von FutureProofHomes kaufen.
Aber das ist ja fast schon langweilig :wink: und ich möchte gerne etwas basteln und auch weiter dazu lernen.

Die HA Matter HUB/BRIDGE mit Echo oder G Home funktioniert auch schon gut obwohl die Bridge Alpha Status hat.

Gruss

@anon70541084: meinst du den „Home X“ aus meinem ersten Post?

Was ist aus dem Beitrag von Tuxom007 nicht ganz klar?

Ansonsten bin ich jetzt auf den Nabu Casa Assistenten umgestiegen und bin einigermaßen zufrieden (nur die Reaktionszeit ist mir noch zu lamgsam).
Zu weiterer Hardware kann ich leider nichts berichten.

Kannst du dir aussuchen, die Cloud ist schneller, bei lokalen Installation brauchst du eben CPU-Performance auf dem HA-Rechner, der entsprechend schnell reagieren kann.

Die Ersten Tests haben wohl ergeben, das lokale Installation ca 3-5 Sekunden Verzögerung bis zu einer Antwort / Reaktion vorhanden sind.
Der RasPi reicht dafür überhaupt nicht, weil viel zu schwach.

1 „Gefällt mir“

Von welcher Version redet ihr hier eigentlich :hugs:
Oder wirklich der alte richtige RapberryPi

Die Rede war beim Erscheinen vom dem Sprachassistenten bis zum aktuelle Pi5.

Keine Ahnung ob die überhaupt unterstützt wird.

Nvidia bringt ja nur dann was, wenn die auch von der Software unterstützt wird und dazu werden Tools und Bibliotheken benötitg - spreche aus Erfahrung, wir machen die Spielchen in der Firme gerade auch, das wir eigene KI-Systeme bauen.

Da müsste man sich mal mehr mit dem Sprachassistenten von HA beschäftigen, ich meine Bestellung damals aber wieder storniert, mir fehlt da derzeit zum einem die Zeit für und zum anderen auch die Lust.

1 „Gefällt mir“

Nö, wie schon geschrieben, für mich ist das Thema Sprachassistenten erledigt, ich habe auch sämtliche Alexas rausgeworfen

Hier kleine Info, gerade in einem Onlineshop gesehen:

Weiterer Hinweis: Weniger leistungsstarke Home Assistant-Hardware kann zu einer langsameren Spracherkennung führen. Falls du eine weniger leistungsstarke Home Assistant-Hardware verwendest, wie Raspberry Pi 4/5, NAS-Systeme, Yellow, Green, etc., solltest du die Sprachverarbeitung in die Home Assistant Cloud auslagern.

Ich hab gerade einen der HA Voice-Assistenten hier, werde jetzt am WE mal damit rumspielen, warte nur noch auf Netzteile, die ich bestellt habe, da ich keine 5V/2A Netzteil mit USB-C frei habe.

Erster Installationsversuche waren, sagen wir mal wenig erfolgreich - der hat immer wieder die Verbindung zum Netz verloren und dann brach die ESPHome-Installation ab.

Naja was soll ich sagen.

Abfrage der Uhrzeit ( was banales ) - 2 bis 3 sec Verzögerung, egal ob per Cloud oder Local, bei Wetter steigt der schon aus, Licht einschalten ging garnicht.

Und die Verständlichkeit von dem Teil ist gruselig, alleine schon wenn Radio/TV im Raum läuft, versteht der schon nichts mehr, auch wenn 4m vom TV entfernt und mal sollte auch ziemlich in der Nähe sein.

Ok, das Teil ist noch PreView, aber da ist verdammt viel Luft nach oben was Performance, Verständlichkeit usw. betrifft. Ich weiss nicht, wieviel da überhaupt noch geht, weil das werkelt ja nur ein ESP32-S3 drin.
Auch die Sprachqualität ist bescheiden, für Text-Ausgaben geht es, Musik ist noch, das muss ich noch testen. Zumindest kann man externe Lautsprecher anschliessen ( aktive ), werde ich auch noch testen.
Auch scheint die deutsche Sprache noch bei weitem nicht so unterstützt zu werden, bei englich geht es besser.

Aktuell würde ich sagen: ein Amazon Echo dot ist dem Teil um Welten überlegen, ich hab noch ganz alte hier, aber die selber deutlich besser.

Das lag nicht am ESP sondern an meinem ESPHome, den ich kürzlich vom HA aus auf einen eigenen Proxmox-Container ausgelagert habe, der war in der Firewall nocht nicht mit seiner IP freigeschaltet, ego konnte der die ESP auch nicht im anderen VLAN erreichen.
Das funktioniert nun einwandfrei.

Meinst die Hardware, den offiziellen von HA selber Link
Hab ich von einem Kumpel zum testen bekommen, weil er hat derzeit keine Zeit, sein SmartHome umzustellen auf HA, daher lagen die bei ihm ungenutzt in der Schublade.

Also die Sprachverständigung von dem Teilen ist grauenhaft. Der liegt 30cm neben mir, TV läuft 4m entfernt und der versteht nichts mehr.
„ok Nabu - wie spät ist es“ - 6sec später - „Eier existiert nicht“

Wenns es ruhig ist, geht es halbwegs.

Da müssen noch viele Zeilen Code reinfliessen.

Die Spracherkennung ist ein ziemliches Manko derzeit, das Teil ist derzeit in meinen Augen absolut nicht ausgereift.
Einfache Frage nach Uhrzeit, Wetter, Temperatur im Wohnzimmer, etc funktioneren ja noch halbwegs zuverlässig, aber wenns komplexer wird, zb Licht schalten usw. funktioniert das ehe semi - „da habe ich nicht verstanden“ ist da in mind 50% die Antwort.

Ich bemerke auch keinen Unterschied zwischen der Nutzung von HA lokal oder der Nabucasa-Cloud, die Antwortzeiten sind fast gleich.

Zum rumspielen ok, aber für den Einsatz im Smarthome ist ein Amazon Echo dem Teil um Welten überlegen, vor allen in der Geschwindigkeit der Antworten und Spracherkennung.

Man muss aber immer sagen - das ist ein Preview !

Die Kurzfassung: bis er Seriennreif ist

So liesst sich der Kommentar auf der Webseite zumindest:

While for some, the current state of our voice assistant may be all they need, we think there is still more to do before it is ready for every home in every country, and until then, we’ll be selling this Preview of the future of voice assistants. Taking back our privacy isn’t for everyone - it’s a journey - and we want as many people as possible to join us and make it better.

Ich rechne mal mit 1/2 bis 1 Jahr.

Das Teil läuft mit ESPHome, da ist vieles von der Softwareseite möglich, aber das Limit ist eher der verbaute ESP32 darin ( genauer esp32-s3-devkitc-1 ), da sehe ich eher die Probleme. ( Software liegt auf Github )
Die müssten zwangsläufig Spracherkennung usw. auslagern, ob in die Cloud oder eben auf den HA-Server lokal, ist dabei erst mal egal, nur eine Frage der Rechenleistung.

Ich sehe jetzt aber nicht unbedingt, das bei Anfragen die CPU Load auf meinem HA-Server ( Proxmox VM ) merklich hoch geht, aber das sind nun mal auch nur banale Sachen, die ich bisher gemacht habe.

Ich hab gerade keinen Überblick, welche Modell noch Alternativ zum esp32-s3 mit mehr CPU-Leistung verfügbar sind, vielleicht ist auch ein Raspberry PicoW eine Option, der läuft ja auch mit ESPHome, allerdings die interessantere neue Version 2W noch nicht und der hat mehr Power.

Ich denke da kommt noch was, vermutlich wird die aktuelle Version so nicht final gehen - wobei ich die Idee ganz gut finde..

1 „Gefällt mir“

Ist die Frage, ob das mit vertretbaren Aufwand / Kosten überhaupt möglich ist, sowas in den Satelliten einzubauen.
Für Spracherkennung braucht es viel Rechenpower, also entweder starke CPU/GPU oder eben spezielle DSP dafür - die dafür aber eben auch vorhanden / entwickelt sein müssen.

Das ganz extern auf einen Server oder eben der Cloud auszulagern, ist schon der einfacherer Weg, Amazon und Co mache es ja auch so.

Aber läuft die Spracherkennung nicht über die HA-Instanz? Da benötigt man doch gar keine Cloud?

Kannst auswählen, bei schwacher HA-Hardware sollte man eh die Cloud nehmen, da würde sonst zu langen Antwortzeiten kommen.

1 „Gefällt mir“