Lokaler Sprachassistent mit Home Assistant: Fragen und Ergänzungen

Oh ESP32…das erklärt ggf. die Zicken bei der Netzwerkverbindung. Deren WLAN-Stack hat auch noch Luft nach oben. Ich habe hier auch so meine Probleme mit den Dingern.

Welchen HA-Voice Assistenten hast du denn gerade im Test? Hattest du gar nicht geschrieben…

Das lag nicht am ESP sondern an meinem ESPHome, den ich kürzlich vom HA aus auf einen eigenen Proxmox-Container ausgelagert habe, der war in der Firewall nocht nicht mit seiner IP freigeschaltet, ego konnte der die ESP auch nicht im anderen VLAN erreichen.
Das funktioniert nun einwandfrei.

Meinst die Hardware, den offiziellen von HA selber Link
Hab ich von einem Kumpel zum testen bekommen, weil er hat derzeit keine Zeit, sein SmartHome umzustellen auf HA, daher lagen die bei ihm ungenutzt in der Schublade.

Also die Sprachverständigung von dem Teilen ist grauenhaft. Der liegt 30cm neben mir, TV läuft 4m entfernt und der versteht nichts mehr.
„ok Nabu - wie spät ist es“ - 6sec später - „Eier existiert nicht“

Wenns es ruhig ist, geht es halbwegs.

Da müssen noch viele Zeilen Code reinfliessen.

Hmm…interessant, auch wenn man sich bessere Testergebnisse gewünscht hätte.

Die Spracherkennung ist ein ziemliches Manko derzeit, das Teil ist derzeit in meinen Augen absolut nicht ausgereift.
Einfache Frage nach Uhrzeit, Wetter, Temperatur im Wohnzimmer, etc funktioneren ja noch halbwegs zuverlässig, aber wenns komplexer wird, zb Licht schalten usw. funktioniert das ehe semi - „da habe ich nicht verstanden“ ist da in mind 50% die Antwort.

Ich bemerke auch keinen Unterschied zwischen der Nutzung von HA lokal oder der Nabucasa-Cloud, die Antwortzeiten sind fast gleich.

Zum rumspielen ok, aber für den Einsatz im Smarthome ist ein Amazon Echo dem Teil um Welten überlegen, vor allen in der Geschwindigkeit der Antworten und Spracherkennung.

Man muss aber immer sagen - das ist ein Preview !

Gibt es denn bereits eine Art Releasetermin für das fertige Produkt?
Das wäre ja auch ein ungefährer Gradmesser für die zu erwartende Qualität des Endprodukts…?!

Was ich sagen will: Wenn das bis dato so schlecht funktioniert, wie du es beschreibst (Kein Zweifel daran) und das Endprodukt Ende Mail auf den Markt kommen soll, darf man da wohl nicht viel erwarten.

Was mich auch umtreibt: Die HW ist ja nun erstmal so wie sie ist. Bestimmte Anteile kann man vielleicht noch per FW / SW -Flash aktualisieren. Allerdings besteht auch die Gefahr, dass Nabu Casa die „gesamte Problemlösung“ in die Cloud verlagert. Dann läuft die HW irgendwann nur noch mit Cloudanbindung vernünftig.

Die Kurzfassung: bis er Seriennreif ist

So liesst sich der Kommentar auf der Webseite zumindest:

While for some, the current state of our voice assistant may be all they need, we think there is still more to do before it is ready for every home in every country, and until then, we’ll be selling this Preview of the future of voice assistants. Taking back our privacy isn’t for everyone - it’s a journey - and we want as many people as possible to join us and make it better.

Ich rechne mal mit 1/2 bis 1 Jahr.

Das Teil läuft mit ESPHome, da ist vieles von der Softwareseite möglich, aber das Limit ist eher der verbaute ESP32 darin ( genauer esp32-s3-devkitc-1 ), da sehe ich eher die Probleme. ( Software liegt auf Github )
Die müssten zwangsläufig Spracherkennung usw. auslagern, ob in die Cloud oder eben auf den HA-Server lokal, ist dabei erst mal egal, nur eine Frage der Rechenleistung.

Ich sehe jetzt aber nicht unbedingt, das bei Anfragen die CPU Load auf meinem HA-Server ( Proxmox VM ) merklich hoch geht, aber das sind nun mal auch nur banale Sachen, die ich bisher gemacht habe.

Ich hab gerade keinen Überblick, welche Modell noch Alternativ zum esp32-s3 mit mehr CPU-Leistung verfügbar sind, vielleicht ist auch ein Raspberry PicoW eine Option, der läuft ja auch mit ESPHome, allerdings die interessantere neue Version 2W noch nicht und der hat mehr Power.

Ich denke da kommt noch was, vermutlich wird die aktuelle Version so nicht final gehen - wobei ich die Idee ganz gut finde…

1 „Gefällt mir“

Ich bin gerade in der ersten, groben Recherche. Aktueller Stand: Wenn das nicht schon seitens der HW eine Bauchlandung werden soll, braucht es in dem Satelliten (ich übernehme diesen Begriff jetzt, da es mit einem reinen Mikro nicht getan ist) einen lokalen DSP und wenn man den ESP32 nicht überlasten will, am besten davon einen zweiten (einen für die Spracheingabe und einen zweiten für die -Ausgabe).
Mal sehen, wohin die Reise führt und ob das tatsächlich mit vertretbarem Aufwand möglich ist.

Ist die Frage, ob das mit vertretbaren Aufwand / Kosten überhaupt möglich ist, sowas in den Satelliten einzubauen.
Für Spracherkennung braucht es viel Rechenpower, also entweder starke CPU/GPU oder eben spezielle DSP dafür - die dafür aber eben auch vorhanden / entwickelt sein müssen.

Das ganz extern auf einen Server oder eben der Cloud auszulagern, ist schon der einfacherer Weg, Amazon und Co mache es ja auch so.

Cloud ist für mich, wie gesagt, keine Option.

Ich habe eben für die HW eines Prototypen, inkl. DSP, Gehäuse, Netzteil und Kleinteilen, ca. €130,-- zusammengerechnet. Da sind die Versandkosten noch nicht bei.
Ich mache mir keine Illusionen, so etwas zum Preis einer Alexa bauen zu können. Amazon macht ja auch Verlust mit den Geräten…
Egal…ich bin ja noch in der Grobplanung…

Aber läuft die Spracherkennung nicht über die HA-Instanz? Da benötigt man doch gar keine Cloud?

Ich bezog mich mit meiner Aussage „nur“ auf die Aussage von @Tuxtom007.

1 „Gefällt mir“

Kannst auswählen, bei schwacher HA-Hardware sollte man eh die Cloud nehmen, da würde sonst zu langen Antwortzeiten kommen.

1 „Gefällt mir“