Home Assistant i Lokalne AI: Prywatność i Szybkość

Home Assistant od lat jest synonimem lokalnego smart home – bez chmury, bez abonamentu. Od czasu pojawienia się Voice Assistant pipeline i Wyoming protocol, ta sama filozofia rozciąga się na sterowanie głosowe i lokalne LLM-y. Twoje „zgaś światło w salonie” nie leci do Google – przetwarza je pudełko obok routera.

Dlaczego lokalne AI w domu

Komercyjne asystenty (Alexa, Google) działają szybko, ale za cenę kompromisu: każda komenda głosowa to nagranie wysyłane na obcy serwer. To problem prywatności i zależność od internetu. Wystarczy padnięty WAN i rolety przestają reagować.

Lokalne AI w Home Assistant rozwiązuje trzy rzeczy naraz:

Prywatność – audio nigdy nie opuszcza LAN-u, idealnie połączone z AdGuard Home na Raspberry Pi jako DNS sinkhole.
Latencja – brak round-tripu do chmury, odpowiedź w ułamku sekundy.
Niezależność – dom działa, nawet gdy światłowód leży.

Pipeline głosu w HA

Voice Assistant w Home Assistant to łańcuch trzech komponentów, które wymieniają się danymi przez Wyoming protocol:

STT – faster-whisper, port Whispera na CTranslate2, jako add-on do HA OS.
Intent / LLM – warstwa interpretacji. Natywny Assist (regułowy) albo lokalny LLM przez Ollama czy llama.cpp.
TTS – Piper, otwartoźródłowy syntezator z przyzwoitym polskim głosem.

Jako mikrofon i głośnik używa się ESP32-S3 BOX-3 jako satellite skonfigurowanego przez ESPHome – jak Echo Dot, ale w trybie local-only.

Sprzęt – minimum vs komfort

Minimum (CPU fallback)

Mini-PC z N100/N305 + 16 GB RAM – pociągnie Whisper `base`/`small` i Piper bez GPU.
Raspberry Pi 5 8 GB – w teorii da radę z `tiny`/`base` Whisper i Piperem, ale lokalny LLM – zapomnij. Pi to dobry satellite, słaby brain.

Komfort (GPU)

NVIDIA RTX 3060 12GB lub RTX 4060 Ti 16GB – sweet spot dla domu. VRAM pozwala wygodnie trzymać Llama 3 8B w kwantyzacji Q4_K_M razem z Whisperem `large-v3`.
Mac mini M2/M4 – unified memory, świetna efektywność, Ollama z pudełka.

Modele do wyboru

Llama 3 8B Instruct – uniwersalny model do intentów i krótkich konwersacji, działa na 8–12 GB VRAM.
Mistral 7B Instruct – lżejszy, szybszy, dobry przy ograniczonej pamięci.
Whisper – `small` to minimum dla polskiego, `medium`/`large-v3` poprawiają nazwy własne.

Pułapki, których nie pokazują na filmikach

Latencja – sumuje się: VAD + STT + LLM + TTS. Tani CPU potrafi dać kilka sekund od „hej, Nabu” do odpowiedzi. GPU schodzi do ok. sekundy.
Jakość STT po polsku – Whisper `tiny` po polsku to katastrofa, `base` gubi końcówki fleksyjne. Realnie zaczynamy od `small`.
LLM ≠ intent parser – do prostych komend regułowy Assist jest lepszy niż LLM: szybszy, deterministyczny, nie halucynuje encji.
Bezpieczeństwo sieci – satellite’y, kamery i czujniki IoT zawsze idą do osobnego VLAN-u. Patrz Segmentacja VLAN – kluczowa dla IoT.

Werdykt – jak wdrożyć rozsądnie

Zacznij od Home Assistant OS na mini-PC, postaw add-ony Whisper, Piper i Ollama, dorzuć ESP32-S3 BOX-3. Tak postawiony stack daje w pełni lokalnego asystenta głosowego bez abonamentu.

Jeśli chcesz konwersacyjnego asystenta z LLM-em – dołóż używaną RTX 3060 12GB. Po więcej kontekstu o krajobrazie narzędzi AI w 2026, które hostujesz sam, zajrzyj do AI w praktyce 2026 – przegląd narzędzi. Smart home przyszłości nie potrzebuje chmury – potrzebuje dobrze skonfigurowanego pudełka w szafie rack.