【论文笔记】基于生成对抗网络的强化学习算法的研究
来源:http://www.tudoupe.com时间:2022-07-22
目录
- 摘要
- 关键词
- 0 引言
- 1 相关理论
- 1.1加强学习理论
- 1.2生成对抗网络的理论
- 1.3基于生成对抗网络的学习算法的加强
- 1.3.1算法的一般结构框架
- 2 实验与分析
- 3 总结
摘要
- 解决方法:提高学习的培训样本的整体工作效率延迟
- 提出了一种基于生成反网络的增强学习算法
- 主要内容:将真实经验样本集作为模板,生成理论上可行的虚拟样本,通过智能体agent进行一次训练,智能体agent会将好的虚拟样本并入到真实样本集当中,提高训练样本的质量
- 结果:与Q学习算法相比,结果目标函数收敛率约40倍
关键词
- 强化学习;
- 生成对抗网络;
- 训练样本;
- 相对熵;
- 函数收敛
0 引言
生成逆网是一种新型的生成模型,它训练发电机同时优化分离器学习的成本函数。
学者 | 工作 | 优缺点 | 引用文献 |
---|---|---|---|
汪,焦等。 | ASE学习算法提高了采样过程,提高了目标函数的准确性。 | 没有提及数据学习过程和应用能力方法,无法获得数据培训或计算过程,工作效率滞后,并无法解决相关技术问题。 | 汪悦颀,焦在滨.基于继电保护同步时序信息特征的配电网故障诊断方法[J]. 南方电网技术,2019,13(4):73-79. |
王,傅等。 | 通过小计算获取大效果的Q学习算法,计算量比较小,该算法能够输出较佳的数据最优解,对于解决复杂数据问题具有突出的技术效果,能够通过随机的方式实现数据的动态变化,大大提高了数据应用能力。 | 训练样本的过程复杂,要求计算机系统性能过高 | 王改花,傅钢善. 网络学习行为与成绩的预测及学习干预模型的设计[J]. 中国远程教育,2019(2):39-48. |
1 相关理论
1.1加强学习理论
1.2生成对抗网络的理论
生成对抗网络作为生成建模的一种方法,通过生成模型G和判别模型D两种不同的方式实现数据信息评估与分析。
针对网络生成数据信息的区分模型可以通过输入传递数据信息分类数据信息,进而将数据信息通过生成模型的方式进行输出,进一步将能够实现的基础数据样本信息通过信息 p ( x ) p(x) p ( x ) 的形式实现输出。
在生成对策网络模型的过程中,对策过程通常分为非常小和非常大的二进制游戏问题。
- 输出噪声作为输入信息,输入数据转换为样品数据集 x − G x-G x − G ;
- 也可以通过微分模型输出数据信息,并指定数据样本作为数据集记录 x x x 然后收集样品数据 x x x 输入通过分布概率输出样品数据信息的数据 D ( x ) D(x) D ( x ) 进行计算。
- 通过判别模型输出的数据信息损失能够实现正确的信息分类,并通过平均对数概率实现网络数据信息损耗计算。
min G max D V ( D , G ) = E [ l o g D ( x ) ] + E [ l o g ( 1 − D ( G ( z ) ) ) ] min_{G}max_{D}V(D,G)=E[mathbf{log}D(x)]+E[mathbf{log}(1-D(G(z)))] G min D max V ( D , G ) = E [ log D ( x )] + E [ log ( 1 − D ( G ( z )))]
模型生成的优化方向是 D ( x ) D(x) D ( x ) 增 大, D ( G ( z ) ) D(G(z)) D ( G ( z )) 通过对微分模型的实际样品输出的采样,可以尽可能少地生成模型样品的概率值;微分模型与其哲学相反。
训练样本过程:
- V = E [ l o g D ( x ) ] + E [ l o g ( 1 − D ( x ) ) ] V=E[mathbf{log}D(x)]+E[mathbf{log}(1-D(x))] V = E [ log D ( x )] + E [ log ( 1 − D ( x ))]
- 写成积分形式: V = ∫ x [ l o g D ( x ) + l o g ( 1 − D ( x ) ) ] d x V=int_{x}[mathbf{log}D(x)+mathbf{log}(1-D(x))]mathbf{d}x V = ∫ x [ log D ( x ) + log ( 1 − D ( x ))] d x
- 令: d V ( G , D ) d D = 0 frac{mathbf{d}V(G,D)}{mathbf{d}D}=0 d D d V ( G , D ) = 0 ,得到: D ( x ) = P d a t a ( x ) P d a t a ( x ) + P G ( x ) D(x) = frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)} D ( x ) = P d a t a ( x ) + P G ( x ) P d a t a ( x ) 其中 P d a t a P_{data} P d a t a 指示整个反模型训练数据样本的概率, P G ( x ) P_{G}(x) P G ( x ) 指示生成G模型训练数据样本的概率.
- 回代得到: V = − 2 l o g 2 + 2 J S D ( P d a t a ( x ) ∣ P G ( x ) ) V=-2mathbf{log}2+2mathbf{JSD}(P_{data}(x)|P_{G}(x)) V = − 2 log 2 + 2 JSD ( P d a t a ( x ) ∣ P G ( x )) 其中 J S D mathbf{JSD} JSD 表示分配相似性的裁量.
- 从G模型训练中生成的样品如下:
G = arg min G V ( G , D ) = arg min G [ − 2 l o g 2 + 2 J S D ( P d a t a ( x ) ∣ P G ( x ) ) ] G = argmin_{G}V(G,D)=argmin_{G}[-2mathbf{log}2+2mathbf{JSD}(P_{data}(x)|P_{G}(x))] G = G arg min V ( G , D ) = G arg min [ − 2 log 2 + 2 JSD ( P d a t a ( x ) ∣ P G ( x ))]
差分模型的优先优化有利于目标函数的快速收敛,对训练样本的速度有较大的影响。
1.3基于生成对抗网络的学习算法的加强
1.3.1算法的一般结构框架
在训练初始情况下,将训练和分析数学模型和生成反网络算法模型的样本数据模型,作为测试样本数据信息。以生成新的样本,这个样本数据信息不是历史数据的实际经验。这是一个理论上可行的数据样本,可称为虚拟样本。
真实经验样本集
C
C
C
和奖赏函数
r
r
r
表示如下:
C
=
[
(
s
,
a
)
,
(
s
′
,
r
)
]
=
[
x
1
,
x
2
]
C=[(s,a),(s^{prime},r)]=[x_{1},x_{2}]
C
=
[(
s
,
a
)
,
(
s
′
,
r
)]
=
[
x
1
,
x
2
]
通常通过生成一个有限状态函数
s
′
s^{prime}
s
′
数据信息的分析和计算
I ( x 1 , x 2 ) = H ( x 2 ) − H ( x 2 ∣ x 1 ) = P ( x 2 ) l o g 2 P ( x 2 ) + P ( x 2 , x 1 ) l o g 2 P ( x 2 ∣ x 1 ) = P ( x 2 , x 1 ) l o g 2 ( P ( x 2 , x 1 ) P ( x 2 ) P ( x 1 ) ) mathbf{I}(x_{1},x_{2}) = mathbf{H}(x_{2}) - mathbf{H}(x_{2}|x_{1}) \ = P(x_{2})mathbf{log}_{2}P(x_{2}) + P(x_{2},x_{1})mathbf{log}_{2}P(x_{2}|x_{1}) \ = P(x_{2},x_{1})mathbf{log}_{2}(frac{P(x_{2},x_{1})}{P(x_{2})P(x_{1})}) I ( x 1 , x 2 ) = H ( x 2 ) − H ( x 2 ∣ x 1 ) = P ( x 2 ) log 2 P ( x 2 ) + P ( x 2 , x 1 ) log 2 P ( x 2 ∣ x 1 ) = P ( x 2 , x 1 ) log 2 ( P ( x 2 ) P ( x 1 ) P ( x 2 , x 1 ) )
通过生成反网络算法模型,生成经验样本集G:
C
=
[
(
s
,
a
)
,
(
s
′
,
r
)
]
=
[
G
1
,
G
2
]
C=[(s,a),(s^{prime},r)]=[G_{1},G_{2}]
C
=
[(
s
,
a
)
,
(
s
′
,
r
)]
=
[
G
1
,
G
2
]
引入相对熵(
K
L
KL
K
L
)的概念,用其表示
G
1
G_{1}
G
1
、
G
2
G_{2}
G
2
两者相似性。
D
K
L
(
P
∣
∣
Q
)
=
∑
i
p
(
i
)
l
o
g
p
(
i
)
q
(
i
)
D_{KL}(P||Q) = sum_{i}p(i)mathbf{log}frac{p(i)}{q(i)}
D
K
L
(
P
∣∣
Q
)
=
i
∑
p
(
i
)
log
q
(
i
)
p
(
i
)
2 实验与分析
分析这个原因是通过生成反网络来收集实际经验样本
C
C
C
生成新的虚拟样品作为模板,并将其添加到样品集合中
C
C
C
当中,越早的加入生成新的虚拟样本,更新动作a的频率也就越大,因此在起始训练样本次数越低的情况下,用生成对抗网络的强化学习算法的系统性也就会更好,训练样本的速度也更快。
3 总结
下一篇:没有了
相关新闻
- 2022-07-22 高耐磨超高分子量聚乙烯板,车厢
- 2022-07-21 用错还不如扔了!这样用塑料袋,
- 2022-07-21 macOS Monterey v12.4 M1芯片 iOS 开发环境
- 2022-07-21 关于手机充电的技术和协议(二)
- 2022-07-21 hcip第四天作业
- 2022-07-20 环境科普 | 有毒有害还致病!家里
- 2022-07-20 清华同方超锐X30笔记本使用u深度
- 2022-07-20 python3 拼接字符串的7种方法
- 2022-07-20 七彩虹C.N78GD3 V16主板如何通过bios设
- 2022-07-19 javascript 中 构造函数 避免 用户忘记
|
|
|
|
|
|
|
|
|
|