Research‎ > ‎

ステップサイズ再帰適応法 RASP


ステップサイズ再帰適応法 RASP (Recursive Adaptation of Stepsize Parameter) は、強化学習などの学習制御パラメータであるステップサイズパラメータを、学習と同時に外部環境に応じて調整する方法です。

代表的な強化学習である Q 学習では、状態 s において行動 a をとった時の期待報酬 Q(s,a) を、以下の式で更新していきます。


このうち、α がステップサイズパラメータです。
これの報酬部分を簡単化すると、以下のような指数移動平均(Exponential Moving Average, EMA) の形になります。

*****

ここで、このEMAを再帰的に適用した再帰的指数移動平均系列 (Recursive Moving Average Sequence, REMAS) を考えます。








ą
Itsuki Noda,
2011/01/18 18:43
ą
Itsuki Noda,
2012/06/09 3:37
ą
Itsuki Noda,
2012/06/09 3:42
ą
rasp.png
(15k)
Itsuki Noda,
2011/01/18 6:30
ą
Itsuki Noda,
2011/01/18 6:34
Comments