Home Assistant od lat jest synonimem lokalnego smart home – bez chmury, bez abonamentu. Od czasu pojawienia się Voice Assistant pipeline i Wyoming protocol, ta sama filozofia rozciąga się na sterowanie głosowe i lokalne LLM-y. Twoje „zgaś światło w salonie” nie leci do Google – przetwarza je pudełko obok routera.
Dlaczego lokalne AI w domu
Komercyjne asystenty (Alexa, Google) działają szybko, ale za cenę kompromisu: każda komenda głosowa to nagranie wysyłane na obcy serwer. To problem prywatności i zależność od internetu. Wystarczy padnięty WAN i rolety przestają reagować.
Lokalne AI w Home Assistant rozwiązuje trzy rzeczy naraz:
- Prywatność – audio nigdy nie opuszcza LAN-u, idealnie połączone z AdGuard Home na Raspberry Pi jako DNS sinkhole.
- Latencja – brak round-tripu do chmury, odpowiedź w ułamku sekundy.
- Niezależność – dom działa, nawet gdy światłowód leży.
Pipeline głosu w HA
Voice Assistant w Home Assistant to łańcuch trzech komponentów, które wymieniają się danymi przez Wyoming protocol:
- STT – faster-whisper, port Whispera na CTranslate2, jako add-on do HA OS.
- Intent / LLM – warstwa interpretacji. Natywny Assist (regułowy) albo lokalny LLM przez Ollama czy llama.cpp.
- TTS – Piper, otwartoźródłowy syntezator z przyzwoitym polskim głosem.
Jako mikrofon i głośnik używa się ESP32-S3 BOX-3 jako satellite skonfigurowanego przez ESPHome – jak Echo Dot, ale w trybie local-only.
Sprzęt – minimum vs komfort
Minimum (CPU fallback)
- Mini-PC z N100/N305 + 16 GB RAM – pociągnie Whisper `base`/`small` i Piper bez GPU.
- Raspberry Pi 5 8 GB – w teorii da radę z `tiny`/`base` Whisper i Piperem, ale lokalny LLM – zapomnij. Pi to dobry satellite, słaby brain.
Komfort (GPU)
- NVIDIA RTX 3060 12GB lub RTX 4060 Ti 16GB – sweet spot dla domu. VRAM pozwala wygodnie trzymać Llama 3 8B w kwantyzacji Q4_K_M razem z Whisperem `large-v3`.
- Mac mini M2/M4 – unified memory, świetna efektywność, Ollama z pudełka.
Modele do wyboru
- Llama 3 8B Instruct – uniwersalny model do intentów i krótkich konwersacji, działa na 8–12 GB VRAM.
- Mistral 7B Instruct – lżejszy, szybszy, dobry przy ograniczonej pamięci.
- Whisper – `small` to minimum dla polskiego, `medium`/`large-v3` poprawiają nazwy własne.
Pułapki, których nie pokazują na filmikach
- Latencja – sumuje się: VAD + STT + LLM + TTS. Tani CPU potrafi dać kilka sekund od „hej, Nabu” do odpowiedzi. GPU schodzi do ok. sekundy.
- Jakość STT po polsku – Whisper `tiny` po polsku to katastrofa, `base` gubi końcówki fleksyjne. Realnie zaczynamy od `small`.
- LLM ≠ intent parser – do prostych komend regułowy Assist jest lepszy niż LLM: szybszy, deterministyczny, nie halucynuje encji.
- Bezpieczeństwo sieci – satellite’y, kamery i czujniki IoT zawsze idą do osobnego VLAN-u. Patrz Segmentacja VLAN – kluczowa dla IoT.
Werdykt – jak wdrożyć rozsądnie
Zacznij od Home Assistant OS na mini-PC, postaw add-ony Whisper, Piper i Ollama, dorzuć ESP32-S3 BOX-3. Tak postawiony stack daje w pełni lokalnego asystenta głosowego bez abonamentu.
Jeśli chcesz konwersacyjnego asystenta z LLM-em – dołóż używaną RTX 3060 12GB. Po więcej kontekstu o krajobrazie narzędzi AI w 2026, które hostujesz sam, zajrzyj do AI w praktyce 2026 – przegląd narzędzi. Smart home przyszłości nie potrzebuje chmury – potrzebuje dobrze skonfigurowanego pudełka w szafie rack.