使用次修改的目的,作者还避免了一个称为模式崩溃的问题,其中标准 GAN 仅从可能输出的一个子集中产生样本。例如,如果一个 GAN 正在训练产生手写的数字4和6,则 GAN 可能只生产4,并不能在训练中规避这个局部最小值。而通过消除在训练目标梯度,即所谓的 Wasserstein GAN 来避免此问题。
最近的 AlphaGo Zero 论文避免了集成人类的知识或游戏玩法:它只通过「自我玩耍」进行训练,这是通过改进的强化学习训练程序来实现的,其中的策略会随着游戏的前向模拟而更新,用于指导搜索的神经网络在游戏过程中得到改善,使训练速度更快。仅仅在大约 40 个小时的游戏时间之后 AlphaGo Zero 甚至超过了 AlphaGo Lee ( 2016 年击败了李世乭)的表现。