ステップサイズ再帰適応法 RASP (Recursive Adaptation of Stepsize Parameter) は、強化学習などの学習制御パラメータであるステップサイズパラメータを、学習と同時に外部環境に応じて調整する方法です。
代表的な強化学習である Q 学習では、状態 s において行動 a をとった時の期待報酬 Q(s,a) を、以下の式で更新していきます。 このうち、α がステップサイズパラメータです。 これの報酬部分を簡単化すると、以下のような指数移動平均(Exponential Moving Average, EMA) の形になります。 *****
ここで、このEMAを再帰的に適用した再帰的指数移動平均系列 (Recursive Moving Average Sequence, REMAS) を考えます。 ![]() |
Research >