核心思想
传统的强化学习理论的生物学基础是通过多巴胺传递奖励误差信号,从而动态调整神经突触的连接,来进行学习,达到最优的策略。
本文在传统理论的基础上提出了,大脑前额叶皮层在学习中也发挥着重要作用,并和多巴胺相互作用,从而发现存在的一种学习范式元强化学习。
实现过程
本文将大脑前额叶皮层抽象为一个RNN模型,通过仿真实验观察前额叶皮层和多巴胺在学习过程的活动,仿真实验基于一组相关的学习任务进行。本文提出的新的理论解释为:基于多巴胺调节的学习机制是一种model-free的学习机制,该机制用来调节突触权重。而在前额叶皮层中存在着另外一种model-based的学习机制,在这一过程中,突触权重是固定的,而通过调整神经网络中的激活状态来适应不同任务。这两个学习过程结合起来,被称为元强化学习过程。
测试任务
本文基于6个仿真实验来显示新的理论,主要任务基于Harlow Task(猴子学习实验,给猴子同时展示左右两个不同的物体,选择其中一个会有食物奖励,另一个没有,两个物体出现的位置随机,多次后,猴子便可以学习到该规则,当更换不同物体时,猴子通过尝试也能快速适应,即学会学习)。
创新点
本文通过Harlow Task仿真实验,训练一个RNN模型(对大脑前额叶皮层的建模)使其产生了元学习能力,从而解释了基于多巴胺和大脑前额叶皮层的元学习的生物学机制。