7月25日上午9点,南开大学韩霞博士应邀在数学与统计学院随机分析与数理金融研究中心系列讲座第87讲作题为“Choquet regularization for reinforcement learning and its applications”的线上学术报告。报告会由副院长徐林教授主持,学院王华明教授、概率统计和运筹控制方向的部分研究生以及来自北京大学、厦门大学、上海财经大学等高校的师生代表参加了报告会。
报告会中,韩霞介绍了通过Choquet信息熵正则化子来度量和控制探索水平的强化学习框架,该框架重新定义了基于Shannon信息熵正则化子的连续时间强化学习模型。在线性二次调节控制问题中,韩霞给出了几个特定Choquet正则化子的显式最优分布以及由此生成的多类探索性采样器的Choquet正规化子,如贪婪、指数、均匀和高斯等类型,显示了该框架的广泛应用前景。最后,韩霞还就著名的均值-方差投资组合选择问题的展示了该框架的强化学习过程,并通过仿真演示相应算法优良效果。
报告结束后,韩霞和与会师生进行了热烈的讨论和交流。本场报告会学术氛围浓厚,有效促进了我院随机控制领域的对外学术交流和合作。