台州新闻门户网站

PaddlePaddle升级解读 | PARL1.1一个修饰符实现并行强化学习算法

?

WAVE SUMMIT 2019深度学习开发者峰会基于PaddlePaddle创建的深度强化学习框架,发布了一个专注于并行性的1.1版本。本文为您介绍PARL并行算法优化的最新进展。

“强化学习是近年来机器学习领域的一个研究热点。它在游戏操作,围棋游戏,多智能体控制等场景中取得了很大的进步。在逐步挑战这些问题的同时,培养了强化学习模型的计算。力的要求也大大提高。虽然显卡设备经历了K40/P40/V100的升级,但CPU频率也在增加,但大规模并行化仍然是提供的主要手段。巨大的计算能力。最重要的是,由于其全局锁定,Python在计算密集型任务上有自己的多线程。虽然多进程可以绕过全局锁定问题,但进程间通信会增加开发复杂性和性能改进空间受机器上CPU数量的限制。

项目地址:

PARL1.1

PARL是一个基于百度PaddlePaddle的深度密集学习框架。继1.0版本的开源Neurops 2018修复挑战冠军培训代码和主流强化学习模型之后,我们发布了一个专注于并行性的1.1版本。 PARL 1.1增加了对高质量并行算法的支持,包括IMPALA,GA3C和A2C,并提供高性能并行开发接口。以PARL实现的IMPALA算法的评估结果为例。在Atari的经典评估环境中,乒乓球游戏最快可以在7分钟内达到20分,而突破游戏在25分钟内达到400分(1个P40GPU + 32个CPU))。

img_pic_1556179657_0.jpg

并行修饰符

PARL 1.1可以使用简单的修饰符(