weltweit erstes Neuronales Jordan Netz auf Arduino Due !

HaWe · 26.10.2016, 18:01

hallo,
nein, ich habe mich bisher noch nicht mit Q-Learning beschäftigt, aber vieles kommt mir bekannt vor.

Mit der Verstärkung meinte ich aber etwas anderes:
wenn man ein Netzwerk trainiert (z.B. ein ganz simples FF-Netz), dann präsentiert das Netz ja auf ein Input-Pattern spontan ein Output-Pattern.
Ist das richtig (so wie gewünscht), tut der Trainer nichts.
Ist es falsch, nennt der Trainer das richtige Ziel-Ergebnis.
Dann wird trainiert, d.h. die Netz-Input-Gewichte und thresholds werden so lange durch Algorithmen verändert, bis das Input-Pattern dann doch dem Ziel-Output entspricht.
Diese Zurodnung wird gespeichert.
Also reagiert der Trainer nur, wenn das output-Pattern NICHT dem spontan präsentierten Pattern entspricht.

Beim Operanten Konditionieren durch positive Verstärkung passiert es ganz anders, nicht nur "anders herum":

Das Netz (das Tier) präsentiert bei ständigen zufälligen Reizmustern ein spontanes Output-Pattern (spontanes Verhalten).
Ist es richtig, wird vom Trainer belohnt, und durch die Belohnung wird diese Zuordnung tendenziell modifiziert, wenn auch noch nicht endgültig fest gespeichert.
(z.B. (1) bestimmtes Reizmuster => (2) Tier erzeugt Verhaltensmuster
=> (3) wenn "richtig": Futterkugel als Belohnung), das ist der Lernschritt, der gefestigt und später dauerhaft gespeichert werden soll.
Ist es falsch, passiert gar nichts, es wird auch kein Hinweis in irgendeiner Weise gegeben.
Wird gar kein Verhalten vom Tier geäußert oder präsentiert (Nichts-Tun), passiert aber ebenfalls nichts seitens des Trainers.
Nicht irgendein Verhalten oder Nichtstun an sich wird belohnt oder bestraft oder berichtigt, sondern alleine "richtiges" Verhalten, und damit es endgültig gelernt wird, muss es immer und immer wieder verstärkt werden.
Falsches oder Nicht-Verhalten wird in diesem Modell mit der positiven Konditionierung nicht bestraft, es "erlischt" spontan mit der Zeit, da es nicht verstärkt wird, und der Trainer wird dabei einfach nicht aktiv.

(Grundsätzlich erfordert dieser Ansatz allerdings ein weiteres Element, nämlich einen natürlichen, angeborenen Trieb (Fressen) auf ein Grundbedürfnis (Hunger) hin, und einen primären Reiz (Futter), um den Trieb zu stillen.
Ohne dies könnte dann auch Futter nicht als Verstärker funktionieren.
Und wenn es dieses Bedürfnis nach Futter wegen des Fress-Triebs nicht wäre, könnte man damit auch keine sekundären Verstärker antrainieren.)

Und das wäre jetzt auf künstliche neuronale Netze zu übertragen, z.B. um einen Roboter wie einen Hund trainieren zu können.

**Counterfeiter** · 26.10.2016, 19:08

Ist das ein Grundlegend neuer Ansatz? Den habe ich so noch nie gehört.

Jedoch wird das Netz sehr wohl bestraft. Schau dir mal das Q-Learning an. Die richtige Aktion wird belohnt, die falsche bestraft. Hierzu wird aber eine "Lernrate" mitgegeben (die nichts mit der Learnrate des FF-Netzes zu tun hat):

Aus meinem Quellcode oben:

qval[action] = (reward < 0.0) ? (reward + (gamma * maxQ)) : reward;

Wird bestraft, wird die maximale Aktion des Folgeschrittes genommen (maxQ) und mit der Lernrate multipliziert. Anschließend wird es zum negativen reward (Bestrafung) addiert...
Folglich, wird die falsche starke Aktion bestraft und eine kleinere Ausgabe wird antrainiert... Natürlich sollte gamma unter 1,0 liegen! Ich verwende aktuell 0,9.

Es gibt da schon verdammt gute Konzepte... Ich denke nicht, dass du hier eigene Sachen entwickeln musst! Aber ohne das sich Leute einen Kopf darüber machen, gibt es keine neuen Erkenntnisse... Von daher... auf auf!

Viele Grüße

Sebastian

HaWe · 26.10.2016, 19:22

nein, kein grundsätzlich neuer Ansatz, sondern ein neuer Ansatz für "MEINE" neuronalen Netze, für die ich mich besonders interessiere.

Aber negative Verstärkung = Bestrafung hat nichts mit einer Intervention mitsamt Korrektur-Vorgabe bei Fehlern zu tun, Bestrafung führt einen negativen Reiz zu, den das Tier/das Netz von sich aus "primär" vermeiden will, nämlich (meist) Schmerz als primären negativen Reiz.
Die Folge ist ein ungerichtetes Vermeidungsverhalten, ohne jeden Reiz oder irgendeine "Vorgabe" in eine "richtige" Lösungs- oder Ergebnis-Richtung oder auch ohne eine Art "Lernrate" dafür: das ist hier der entscheidende Punkt!

Genau wie für positive Reize und positive Verstärker braucht man hier auch wieder ein Modell für unbedingte Reflexe und bedingte Reflexe auf negative Reize.

Aber zur Zeit steht bei mir eh erst mal Linux- und C- und C++ - Lernen für den Raspi an erster Stelle. Wie wäre es doch schön, wenn der so einfach wie ein Arduino funtionieren würde und zu programmieren wäre... :-/

**Counterfeiter** · 26.10.2016, 21:25

Achso, ich dachte wir könnten über dieses Model aus mathematischer Sicht schon sprechen. Wenn die Arbeiten noch andauern, dann verschieben wir das noch.

Dann viel Erfolg beim Lernen. Es lohnt sich auf jedenfall...

VG

Basti