Application of Reinforcement Learning for Action Evaluation
Description
Full text not available
Abstract
Forsterkende læring er en type maskin læring, hvor læringen er basert på prøving og feiling. Det er vanligvis strukturert som en kobling mellom en agent og et miljø. Agenten velger hvilken handling som skal tas, og får en belønning eller straff tilbake fra miljøet avhengig av utfallet på handlingen. Målet i forsterkende læring er å finne den oppførselen som maksimere den kumulative belønningen som agenten får. En av algoritmene som er brukt til å løse dette er Q-læringsalgoritmen. Q-læringsalgoritmen består av en tabell som gir verdier for hvilke handlinger som agenten skal velge når miljøet er i en gitt tilstand.
Under dette prosjektet har denne Q-læringsalgoritmen blitt implementert i to forskjellige miljøer. Det første miljøet var en enkel kanon som kunne bevege seg i diskrete steg opp eller ned. Det andre miljøet var en pendel på en vogn som kunne dyttes til venstre og til høyre. For kanonmiljøet viste resultatet at agenten fant den optimale oppførselen fra treningen. I resultatet fra miljøet for en pendel på en vogn viste resultatet at den totale belønningen ble maksimert under trening. Ved testing av ytelsen til agenten etter trening ble det funnet ut at miljøet for en pendel på en vogn var sensitiv til endringer i parametre, startbetingelser og simuleringstid. Ved økning av simuleringstiden klarte ikke agenten å balansere pendelen mye lengre enn simuleringstiden brukt under trening. Dette indikerer at treningen som ble gjort ikke er tilstrekkelig for å oppnå en mer generell optimal oppførsel. Reinforcement learning is a subfield within the field of machine learning. It is a trial and error based learning concept which is usually structured as an interaction between an agent and an environment. The interaction involves the agent selecting an actions to be performed, and then receives a reward from the environment depending on the outcome of the action. The goal in reinforcement learning is to find the behaviour which maximizes the cumulative reward the agent gets. One algorithm that is used to solve this is the Q-learning algorithm, which gives a table with values for which action the agent should perform while in a given state in the environment.
In this project an agent has been trained with the Q-learning algorithm in two different environments. The first environment was a simple canon that can move in discrete steps up and down and fire a ball at an discrete number of targets. The second environment was an inverted pendulum on a cart that could be pushed to the left or right, where the goalwas to keep the pendulum in an upright position. For the canon environment the result showed that the agent was able to reach an optimal behaviour from training . The result for the pendulum environment showed that the the total reward was maximized duringtraining. The tested performance after training showed that the pendulum environment was sensitive to changes in parameters, initial starting states and simulation time. The agent was not able to balance the pendulum for much longer than the simulation time used in training, suggesting that the conditions under training was not sufficient to achieve a general optimal behaviour