Der Flaschenhals bei dem Projekt ist dein Controller. Bei 8MHz wirst du auch beim parallelen Zugriff nicht sehr schnell werden.
Du wirst wohl einen schnelleren Controller brauchen. Entweder, du benutzt einen ARM-Controller, oder du verwendest einen CPLD, der die SD-Karte ausließt und die Daten an einen USB-Controller weiterleitet.
Dann könntest du weiter mit nem langsamen µC arbeiten und müsstest nur den CPLD managen.

ARM wäre wahrscheinlich "vernünftiger" ;D

Zu Punkt 6 deines letzten Posts: Das dürfte nichts werden. Du könntest aber einen 64MHz Taktgenerator verwenden, per Schieberegister teilen und das dann dem Controller zuführen.