Hallo,
ich habe die letzten Monate recht viel mit maschinellem Lernen gemacht. Meine Feststellung war, dass häufig Bugs in anderen Teilen vom Programm (z.B. nur dass man eine Liste anders herum sortiert hat als man denkt) den Lernerfolg verhindern. Mein Tipp wäre schau dir noch mal in Ruhe deinen Code an auf Bugs.
Machst du ganz klassiches Q-Learning mit der Bellmann Funktion, oder hast du ein tieferes Netz? Machst du das von Hand oder mithilfe einer Library? Wenn du das ganze von Hand implementiert hast, würde ich dir dringend zu einer Library wie Tensorflow oder Pytorch raten (zumindest wenn du mehr als nur ganz einfaches QLearning machst). Es gibt sehr viele Dinge wo man was falsch machen kann.
Zum Prinzip von Reinforcementlearning: Du hast eine Diskrete Menge an Rewards (zB. Wenn der Ball links ist und du bist rechts, dann ist die Aktion bewege dich Links gut, die Aktion bewege dich recht ist schlecht). Dein Agent soll nun eine Tabelle lernen die sagt: Ok ich bin in dem State, wenn ich die Aktion mache komme ich in einen anderen State und das ist gut. In deinem Beispiel: Ich bin rechts, ich gehe nach link und bin jetzt im State eins weiter links, das ist gut, weil der Ball links ist.
Code findet sich im Internet ja mehr als genug: https://towardsdatascience.com/getti...g-77499b1766b6
Lesezeichen