5/11

Coursera

強化学習に関しては全く未知よりの未知*1だったので学ぶことが多く新鮮．

環境構築ついでに興味のあったQ学習について調べてみた．

Q学習

以下，「車が坂を登る」ために人工知能が各時間にどのような行動を取ればよいかという問題を考える．

f:id:Fgjiutx:20180512022114j:plain

車は各フレームに右進，静止，左進のいずれかの行動を取ることができるものとする．

f:id:Fgjiutx:20180512021550p:plain

Q学習では，環境とエージェントというものを考える．エージェントは環境に応じて行動を起こす．また，エージェントはその行動と環境の情報からその行動の価値を出力する行動価値関数というものを持っており，エージェントは基本，この行動価値関数が最大であるような行動を取る．行動の価値は，環境からの報酬によって得られこの報酬を用いて更新される．

この行動⇨環境の変化⇨報酬⇨更新のプロセスを繰り返し，よりよい行動価値関数を得ることがQ学習の目的である．

この坂上りにおいて，環境は車の位置と速さであり，行動は前述のように右進，静止，左進であり，報酬はステップごとに-1である．また，位置と速さは離散値として扱いたいため最大値と最小値の間を40分割する．

以降の図において静止:0,左進:1,右進:2とする．

注:報酬情報を勘違いしていたので以降の図の報酬情報:0は間違いで-1が正しい(かも)

f:id:Fgjiutx:20180512031051p:plain