Demnächst möchte ich auch in die lokale Spracherkennung einsteigen.
Folgende Punkte sind mir wichtig und ein paar Fragen sind im Vorfeld aufgekommen.
Eigenes Wake Word erstellen: „Hilfe“
Im Hinblick auf den demografischen Wandel und unserem Senioren Smarthome soll das System auch auf das Wort Hilfe
reagieren. Create your own wake word - Home Assistant
- Wie schnell kann das neue WakeWord erstellt werden?
- Wie zuverlässig funktioniert das bei unterschiedlicher Aussprache?
- Dialekt
- Tonalität: Schwach, Kräftig, Flüsternd, etc
- Welche Mikrophone sind gut?
- Kurze Entfernung
- Großem Raum
- Bei offenem Fenster/ Straßenlärm/ Umgebungsgeräusche
Wer hat’s erfunden?
In der Schweiz habe ich von vielen Jahren die Firma https://www.caru-care.com/ kennengelernt. Sehr inspiriert hat mich die Funktion, dass mit dem Wort Hilfe
Angehörige benachrichtigt werden können.
Welche Server Hardware benötige ich, um komplett lokal und performant Sprachsteuerung zu nutzen?
Software
Die Spracherkennung, vor allem wenn diese komplett lokal sein soll, benötigt viel Rechenpower. Die empfohlene Software kann über den Home Assistant Add-on Store heruntergeladen werden. GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Server & weitere Hardware
Aber welche Serverhardware wird hier benötigt und gibt es zusätzlich etwas Accelerator Hardware wie z.B. von https://coral.ai/ die genau für maschinelles Lernen ausgerichtet ist.
Eingabegeräte und Mikrofone
M5Stack ATOM Echo Smart Speaker ca. 20€
Ausführlich von Home Assistant hier vorgestellt: $13 voice assistant for Home Assistant - Home Assistant
Video
Besonderheiten
- Klein, günstig, verfügbar
- Man kann direkt mit der Entwicklung Anfangen
- Lautsprecher haben schlechte Qualität
Kaufen
ESP32-S3-BOX-3 ca. 100€
Ausführlich beim Year of the Voice - Chapter 5 - Home Assistant vorgestellt. Leider zurzeit überall Ausverkauf und schwer zu bekommen.
Besonderheiten
- Integriertes Display für weitere Anwendungen, z.B. Schaltflächen für die Steuerung in Home Assistant. Alle Lampen aus
- Anzeigen von Kamera Live Bildern bzw. den Zuletzt erkannten Clip der Objekterkennung
- Gegensprechanlage mit der
- Mindestabnahmemenge Investitionen. vgl. Das ultimative Home Assistant Display - Bedieneinheit, Server, Smart Home Controller - alles in einem Gerät
Video
Weitere Informationen: Unleash Your Creativity with ESP32-S3-BOX-3: The Next-Generation Open-Source AIoT Kit | Espressif Systems
ESP32 Basierte Lösung
Man kann auch komplett auf alles selber bauen. Hier die Anleitung mit ESP32
Bender Voice Assistent Video
Eigenes Produkt rentabel
Am Ende Steht die Frage: Kann daraus ein eigenes Produkt entwickelt werden? Was wird es kosten und in welchen Bereichen muss noch entwickelt werden. Wenn das ganze auch noch profitabel, wenn die Software mit https://esphome.io/ frei verfügbar ist und über das Home Assistant Partner Programm vermarktet wird? Möglicher OEM hersteller https://www.climax.com.tw
Hardware bei Kunden
Hier ein potenzieller Hersteller für die Hardware eines Sprachassistenten. Je nach Anforderung mit einem oder zwei Knöpfen. Mir fehlt eine LED für die visuelle Rückmeldung, sodass das Gerät auch für Menschen interessant und bedienbar ist, die nicht mehr so gut höhren können.
Produkt Katalog des OEM Herstellers