原创 ICLR 2022年微软亚洲研究院的亮点：拓展机器学习技术和应用的视野

来源：http://www.tudoupe.com时间：2022-06-17

ICLR被认为是深层学习领域最重要的会议之一。许多关于人工智能、统计和数据科学、机器视觉、语音识别和文本理解等重要应用的有影响力的论文已经在这次会议上发表和发表。下面的ICLR 2022论文展示了微软及其合作伙伴在视觉预训练、定期时间序列预测、微分隐私、代码完成、表格预训练和在线增强学习方面的最新研究。

随着深入学习的研究不断增长和变化,微软的研究人员和合作者正在扩大他们的领域方法。正如本文所强调的若干论文所指出的那样,研究小组继续改进他们的想法,也就是说,各种机器学习技术如何最适合于实际应用, Whether for specialized applications in industry,或者更一般的方法来改进模型的整体决策。他们还更多地了解了计算机视觉等不同的模型如何将机器学习的应用扩展到语言之外。

在探索现实世界应用和多模型的同时,研究人员正在寻找机器学习技术的未来,进一步探索深层在线和非在线增强学习的未知领域。在后一类子领域中，模型如何从数据中学习和与数据相互作用的基础正在发展。研究人员还正在考虑如何优化这些过程。在现实世界中重新设计数据,以防它稀缺或无法使用。

本文是微软亚洲研究中心和其合作者在10月启动的ICLR 2022上所做的工作的一个例子。这反映了公司的广泛的机器学习研究范围。你可以在微软的ICLR 2022活动页面上找到更多关于今年活动所接受的工作的信息。在微软研究博客上,你可以深入阅读会议上接受的两份文件,一个是关于MoLeR,这个模型以图形的形式表示分子,以改善药物发现。另一个是路径预测消除(PPE),这是一种改进的学习方法,它的鲁棒性足以消除变化的环境中的噪音.

DEPTS:周期时间序列预测的深度扩展学习

图1:右边的图显示了部门的整体数据流,中间的图显示了研究者如何在扩展模块中绘制三层扩展分支的整体结构,左边的图显示了单层内部的详细的剩余连接。

参与者及组织:微软亚洲研究所的郑俊、李西安、曹伟、本肯和刘飞伟;中央佛罗里达大学的魏汉和傅燕杰。

根据本论文:周期时间序列(PTS,(或具有显著的周期振荡时间序列)广泛应用于运输、发电和输送、可持续发展和其他行业。PTS预测在这些行业中起着至关重要的作用,因为它可以帮助公司完成许多关键任务,包括早期警告、预定计划和资源计划。然而，临时秘书处的预期工作可能受到其固有的周期性性质和取决于每个周期的复杂性的影响。

本文介绍了PTS预测的深度扩展学习框架DEPTS。DEPTS以一种新的分离公式开始,将周期性状态引入为隐藏变量,研究者可以创建定制模块来解决这两个挑战。为了解决第一个挑战,研究人员开发了一个基于剩余学习的扩展模块。扩展这些复杂的依赖层级.为了解决第二个问题,他们介绍了一种具有参数化循环函数的循环模块,该函数可以捕捉不同的周期.

研究人员对合成数据和实数据进行了实验,结果表明,DEPTS在预测PTS方面非常有效,大大降低了与基线相比的误差,并在某些情况下增加了误差20%。

面向部署的高效率增强学习:底线和优化

图2显示了我们算法的高级可视化:层级策略(例如三层表中的MDP)。

参与者及组织:微软亚洲研究所的李赵、 Tao Qin、 Tie Yan Liu;伊利诺伊大学香槟分校的Jiawei Huang、 Jiinglin Chen、 Nan Jiang。

本文认为,传统的在线增强学习(RL)可以归纳为两个要素的循环:学习策略和从收集数据中运用策略,通过与环境的互动收集新数据。 RL的总体目标是完成整个环境的探索并获得最接近的优化策略。

然而，在许多实际应用中,战略部署可能非常昂贵,使用固定策略收集数据相对方便。例如，在推荐系统中，策略就是推荐策略，好的策略可以根据用户喜好准确地向用户提供建议。为了保证服务质量，在推出新政策之前，企业通常需要进行多个内部测试来评估,它需要很长时间(到几个月)。然而，由于客户群庞大，一旦部署了系统，公司可以在短时间内收集成千上万的反馈,了解更多政策。在这些应用程序中，组织更倾向于使用少数开关或部署可以学习好的策略的RL算法。然而，现有算法和上述实际场景之间仍然存在差距(参阅本文的进一步讨论)。

为了缩小差距，研究人员提出了一种名为“部署效率增强学习”的新环境,这是一个基于部署效率的抽象应用程序模型。一种叫做部署复杂性的新概念(类似于例子复杂性)提供了衡量算法部署效率的方法。部署复杂度(英语:Deployment complexity)是算法返回近似最佳策略之前所需的策略部署量。

在此框架下，研究人员以线性马可夫决策过程(MDP)为例研究。并进行理论分析，回答两个重要的问题。首先，我们能达到的最佳部署复杂性是什么?其次，我们如何设计算法实现最佳部署复杂性?此外，由于大部分以前的相关文献只研究了只应用确定性策略的算法,这些研究人员考虑了两个情况,一个与另一个没有这样的约束。他们表明，消除这些限制可以大大提高部署效率。

关于上述问题的第一个问题,研究人员构造了一个硬的箱子,在 both cases dH and H the lower boundary of information theory is established.对于第二个问题，研究人员提出了通过层状勘探策略实现这些限制的算法(如图2)。本文提出了一种基于新的系数矩阵估计方法和技术创新的新算法框架。最后，研究人员讨论了基于DE-RL公式的扩展设置,这也许是今后研究的一个有趣的课题。

模型逆传播策略优化中的梯度信息问题

图3:(a)这显示了学习与使用模型之间的差异。这个模型指的是转移和奖励函数。(b)这解释了DDPPO算法。DDPPO算法分别构造了预测模型和梯度模型.DDPPO利用不同的损失来训练不同的模型,然后好好使用它们。

参与者及组织:微软亚洲研究所的王元;北京交通大学的李忠元;中国科学院计算机技术研究所的陈伟;中国科学院数学和系统科学研究所的马志明

本文认为基于模型的增强学习提供了有效的机制,通过与学习环境的互动找到最佳策略。在本文中，研究人员研究了模型学习与模型使用之间的差异。具体来说，要了解策略更新的方向,一个有效的方法是使用模型梯度来使用模型的微观宇宙。然而，最常见的方法是将模型学习任务视为监督学习任务。不考虑梯度误差,将预测误差最小化.换言之，该算法需要一个精确的模型梯度,但我们只能学会减少预测错误,这会导致目标不匹配。

本文首先从理论上证明了模型梯度误差在政策优化阶段的重要性,具体而言,估计政策梯度偏差不仅由学习模型的预测误差引入,而且由学习模型的梯度误差引入,这些误差最终影响了政策优化过程的收敛速度。

接下来，本文提出了一种基于两个模型的预测和梯度误差控制方法。本文在模型学习阶段对两种模型的不同作用进行了区分。在战略优化阶段进行协调.通过设计一种实用的梯度误差计算方法,它可以用于指导梯度模型的学习。通过使用预测模型和梯度模型,我们首先可以启动轨道,然后计算模型梯度以获得策略梯度.该算法被称为方向导向投影策略优化(DDPPO)。最后，基线连续控制任务的实验表明,该算法具有更好的采样效率.

提高学习的可变方向

图4:VLOG学习和执行图,以Q-学习为例。左：学习期间，天文台的观测是可用的.贝叶斯子变量z由执行者观察(前测试)和元音观察(后测试)分别估计。整个模型通过最大化VLOG变量子边界进行训练,下边界是回归模型的RL目标函数,它减少了回归和回归前z之间的KL散射。右图：在执行期间，只有观察员的观察是可用的。

参与者及组织:微软亚洲研究所的韩东基先生、罗旭先生、杨岳祥先生和李东先生;阿尔贝塔大学的高野忠志先生;合肥国家综合科学中心的人工智能研究所的多亚健二先生;沖縄科技大学的多亚健二先生。

尽管深层次学习(DRL)在各种决策问题上最近取得了成功,但该文件指出但尚未充分探讨的一个重要方面是,如何通过口语观察来促进学习(信息不在在线决策中出现,但在非在线培训中可用)。例如，人类专家会观察 poker游戏之后的重演,检查对手的手并使用可视的信息(玩家观察以提高他的游戏策略)。这些问题叫做启示指导.

在这项工作中，研究人员基于贝叶斯理论研究了Oracle引导问题.利用变量法在RL中利用光学观测的方法也得到了目标.本文的主要贡献是提出DRL的一般学习框架,它被称为变量潜在的Oracle指南(VLOG)。VLOG具有良好的特性,例如,它的坚韧性和有前途的性能,并且可以与任何基于值的DRL算法相结合的多功能性。

本文证明了VLOG在在线和非在线RL域中的有效性.任务范围从电子游戏到射箭,这是一个挑战性的基板游戏。此外，作者还发布了映射环境和非线性RL数据集作为基础任务,促进 Oracle 指南、游戏人工智能和相关主题的未来研究。

上一篇：原创微软宣布收购Milburo以加强国外威胁检测和响应解决能力

下一篇：没有了

2022-06-17 原创微软宣布收购Milburo以加强国外	2022-06-17 原创再见了！微软宣布停用 Inter
2022-06-17 原创制度缺失：45岁科学家孙剑突	2022-06-17 原创昔日王者跌落神坛，IE正式退
2022-06-17 华为云发布新伙伴体系；微软Azur	2022-06-17 微软再加码63亿美元！将以750亿美元
2022-06-17 比尔・盖茨调侃微软关闭 IE 浏览器	2022-06-17 好用的电脑桌面便签,让你重要事情
2022-06-17 传被百度出售全部股份，爱奇艺：	2022-06-17 微软Windows操作系统代码执行漏洞分

原创 ICLR 2022年微软亚洲研究院的亮点：拓展机器学习技术和应用的视野

相关新闻

站内搜索