Vielleicht könntest du auch die Decoder und die Flipflops in ein kleines CPLD packen... Ab einem gewissen Anteil an glue logic ist das oft platzsparender und teilweise sogar billiger.

Die Ausführungsdauer für die Befehle des AVRs findest du im Datenblatt in der Übersichtstabelle mit allen Befehlen. LDI und OUT brauchen jeweils einen Takt.