Zwei Aktionen sind doch für nen Microcontroller nix...das merkt man nicht mal.
Was dein Licht angeht: red doch mal deutsch mit dem Burschen: Licht AN und Licht AUS unterscheiden sich im Klang wesentlich mehr.
Vermutlich wird der Klang einfach mehr oder wneiger grob gesamplet.
Wenn du im Vorfeld rausfinden willst, was klappen kann, dann nimm es auf, und schau es dir mal in Audacity oder sowas an, dann sieht du schon, was recht ähnlich klingen könnte.
Im Grunde isses wie bei Hunden: die hören auch nicht soo genau.
Die anderthalb Sekunden reichen doch für ein Wort.
Dann kann man abzweigen, und somit durchaus komplette Kommando-Sätze bilden.
Also ungefähr so: Sampleset 1 enthält nur Hauptbefehle wie "fahre", "schalte" usw. Nachdem das angekommen ist, wird verzweigt auf Set 2 oder 3, und die enthalten dann das nächste Wort, "vorwärts" "Küche" bzw. "Licht an" "Heizung" usw.
Dazu solte dann in jedem Set auch ein "zurück"-Befehl drin sein, falls man sich mal versprochen hat.