开源巨献：27个深度强化学习算法的实例项目|with|神经网络|算法

译者：AI研习社（宋怡然）

双语原文链接：Deep Reinforcement Learning Nanodegree Algorithms

在这里，您可以找到几个致力于“深度强化学习”方法的项目。项目以矩阵形式部署：[env x model]，其中env是要解决的环境，而model是解决该环境的模型/算法。在某些情况下，可以通过几种算法来解决同一环境。所有项目均以包含培训日志的Jupyter笔记本的形式呈现。
支持以下环境：

AntBulletEnv,Bipedalwalker,CarRacing,CartPole,Crawler,HalfCheetahBulletEnv,HopperBulletEnv,LunarLander,LunarLanderContinuous,Markov Decision 6x6,Minitaur,Minitaur with Duck,Pong,Navigation,Reacher,Snake,Tennis,Waker2DBulletEnv.

在Udacity深度强化学习学位计划的框架内解决了四个环境（导航，爬虫，到达者，网球）。

-蒙特卡洛方法

在蒙特卡洛（MC）中，我们玩游戏的情节直到到达终点，我们从途中获得了奖励然后返回情节的开始。我们重复此方法至足够的次数，然后平均每个状态的值。

-时差方法与Q学习

-连续空间中的强化学习（深度Q网络）

-函数逼近和神经网络

通用逼近定理（UAT）规定，只要满足有关激活函数形式的轻微假设，就可以使用包含具有有限数量节点的单个隐藏层的前馈神经网络来近似任何连续函数。

-基于策略的方法，爬山，模拟退火

在许多情况下，随机重启爬山是一种出奇的有效算法。模拟退火是一种很好的概率技术，因为它不会偶然错误地将局部极值作为全局极值。

-策略渐变方法，REINFORCE，PPO

定义一个性能指标J（\ theta）以使其最大化。通过近似梯度上升来学习策略参数\ theta。

-关键行为法，A3C，A2C，DDPG，TD3，SAC

A3C与A2C的主要区别在于异步部分。 A3C由具有权重的多个独立代理（网络）组成，它们与环境的不同副本并行进行交互。因此，他们可以在更少的时间内探索状态-行动空间的更大部分。

项目，模型和方法

AntBulletEnv,Soft Actor-Critic (SAC)

BipedalWalker, Twin Delayed DDPG (TD3)

BipedalWalker, PPO, Vectorized Environment

BipedalWalker, Soft Actor-Critic (SAC)

BipedalWalker, A2C, Vectorized Environment

CarRacing with PPO, Learning from Raw Pixels

CartPole, Policy Based Methods, Hill Climbing

CartPole, Policy Gradient Methods, REINFORCE

Cartpole, DQN

Cartpole, Double DQN

HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Twin Delayed DDPG (TD3)

HopperBulletEnv, Soft Actor-Critic (SAC)

LunarLander-v2, DQN

LunarLanderContinuous-v2, DDPG

Markov Decision Process, Monte-Carlo, Gridworld 6x6

MinitaurBulletEnv, Soft Actor-Critic (SAC)

MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

Pong, Policy Gradient Methods, PPO

Pong, Policy Gradient Methods, REINFORCE

Snake, DQN, Pygame

Udacity Project 1: Navigation, DQN, ReplayBuffer

Udacity Project 2: Continuous Control-Reacher, DDPG, environmentReacher (Double-Jointed-Arm)

Udacity Project 2: Continuous Control-Crawler, PPO, environmentCrawler

Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environmentTennis

Walker2DBulletEnv, Twin Delayed DDPG (TD3)

Walker2DBulletEnv, Soft Actor-Critic (SAC)

DQN和Double DQN的项目

Cartpole, DQN
Cartpole, Double DQN
LunarLander-v2, DQN
Navigation, DQN
Snake, DQN, Pygame

PPO的项目

Pong, 8个并行代理
CarRacing, 单一代理，从像素中学习
C r a w l e r, 12 个并行代理
BipedalWalker, 16 个并行代理

TD3的项目

BipedalWalker
HalfChhetahBulletEnv
HopperBulletEnv
Walker2DBulletEnv

Soft Actor-Critic (SAC) 的项目

AntBulletEnv
BipedalWalker
HopperBulletEnv
MinitaurBulletEnv
MinitaurBulletDuckEnv
Walker2dBulletEnv

BipedalWalker,与不同模型的混合

BipedalWalker, Twin Delayed DDPG (TD3)
BipedalWalker, PPO, Vectorized Environment
BipedalWalker, Soft-Actor-Critic (SAC)
BipedalWalker, A2C, Vectorized Environment

CartPole与不同模型的混合

CartPole, Policy Based Methods, Hill Climbing
CartPole, Policy Gradient Methods, REINFORCE
Cartpole with Deep Q-Learning
Cartpole with Doouble Deep Q-Learning

TowardsDataScience网站上的文章

贝尔曼方程式在深度强化学习中如何工作？

深度Q网络中一对相互关联的神经网络

深度强化学习的三个方面：噪声，高估和探索

我在上述项目中开发的相关视频

Four BipedalWalker Gaits
BipedalWalker by Training Stages
CarRacing by Training Stages
Lucky Hopper
Martian Ant
Lunar Armada
Wooden Snake
Walking through the chess fields
Artificial snake on the way
Learned Long Snake
Such a fast cheetah
Four stages of Minitaur training

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

开源巨献：27个深度强化学习算法的实例项目

热搜

热门跟贴

热搜

热门跟贴

相关推荐

哈马斯领导人宣布同意停火方案

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

游客海参崴遭威胁"你是不想回国了" 周围人直呼"哎呦"

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

非洲蜥蜴人

人家说赏你饭吃，是事实！出走后的富士康销售额猛增：影响有多大

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

5月7日俄乌：袭击克里米亚，击落俄军Su-34战机，用韧性赢得胜利

以色列称"别无选择"坚持进攻拉法 10万人正在大撤离

从零手搓MoE大模型，大神级教程来了

愤怒！东北女子因普通话遭香港柜员排挤，香港卫视评论区炸锅！

某地政府部门调整工作时间，中午12点下班下午3点上班

​新一代注意力机制Lightning Attention-2：无限序列长度

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

一哄而上，打不赢美国高科技

俄媒：俄计划建新管道向中国输送天然气

广东2-1辽宁夺赛点 周琦13+12李晓旭伤退

00后干部拟任东莞茶山经发局副局长，当地：符合晋升条件

项立刚怼丘成桐“你不懂数学”，网友：你的手沾过高等数学课本吗

中法关于中东局势的联合声明

新一代注意力机制Lightning Attention-2：无限序列长度

广东2-1辽宁夺赛点周琦13+12李晓旭伤退