Paper reading: Prefrontal cortex as a meta-reinforcement learning system

核心思想

传统的强化学习理论的生物学基础是通过多巴胺传递奖励误差信号，从而动态调整神经突触的连接，来进行学习，达到最优的策略。
本文在传统理论的基础上提出了，大脑前额叶皮层在学习中也发挥着重要作用，并和多巴胺相互作用，从而发现存在的一种学习范式元强化学习。

实现过程

本文将大脑前额叶皮层抽象为一个RNN模型，通过仿真实验观察前额叶皮层和多巴胺在学习过程的活动，仿真实验基于一组相关的学习任务进行。本文提出的新的理论解释为：基于多巴胺调节的学习机制是一种model-free的学习机制，该机制用来调节突触权重。而在前额叶皮层中存在着另外一种model-based的学习机制，在这一过程中，突触权重是固定的，而通过调整神经网络中的激活状态来适应不同任务。这两个学习过程结合起来，被称为元强化学习过程。

测试任务

本文基于6个仿真实验来显示新的理论，主要任务基于Harlow Task（猴子学习实验，给猴子同时展示左右两个不同的物体，选择其中一个会有食物奖励，另一个没有，两个物体出现的位置随机，多次后，猴子便可以学习到该规则，当更换不同物体时，猴子通过尝试也能快速适应，即学会学习）。

创新点

本文通过Harlow Task仿真实验，训练一个RNN模型（对大脑前额叶皮层的建模）使其产生了元学习能力，从而解释了基于多巴胺和大脑前额叶皮层的元学习的生物学机制。

算法评价

返回文章列表

上篇Paper reading: Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning

下篇Paper reading: A Simple Neural Attentive Meta-Learner