Adam可以换了?UIUC中国博士生提出RAdam,收敛快精度高,大小模型通吃

时间:2019-09-01 来源: 国内新闻

我想在2天前分享新智慧

新智慧报告

大明

[新智元导读] UIUC中国博士团队为普通机器学习模型优化器Adam提出了一种新的改进RAdam,省去了使用Adam的“预热”链接,这可以保证学习速度和收敛速度,同时也有效地避免了模型的陷阱在“局部最优解”中,它被称为亚当的优秀继承者!

最近,UIUC中国博士生刘源的一篇新论文介绍了新改进的“整顿亚当”(RAdam)。这是基于原始Adam的改进,它可以实现Adam快速收敛的优势和SGD方法的优势,使模型能够收敛到更高质量的结果。

有外国用户测试结果,该组的效果。

以下是用户测试过程和RAdam的简要介绍:

我已经在FastAI框架中测试了RAdam并迅速获得了高精度的新记录,而不是ImageNette上两个难以被击败的FastAI排行榜。我在今年的许多论文中测试了模型,大多数模型似乎在文章中给出的特定数据集上表现良好,但在我尝试的新数据集上表现不佳。但RAdam并不相同,它似乎已经取得了性能提升,并可能成为香草亚当的永久“接班人”。

RAdam以多种学习速率提供强大的性能,同时仍能快速收敛并实现更高的性能(CIFAR数据集)

RAdam和XResNet50,5个时期的准确率是86%

Imagenette排行榜:达到当前最高性能84.6%

让我们来看看RAdam的内部机制,看看为什么会实现更好的收敛,更好的训练稳定性(对所选学习率不太敏感),以及为什么它基于几乎所有的AI应用程序都更准确。性和多功能性。

不仅适用于CNN:RAdam在Strath Word数据集上的性能优于LSTM

RAdam:无需预热,避免模型收敛到“局部最优解决方案”

作者指出,虽然每个人都在努力实现快速稳定的优化算法,但自适应学习速率优化器(包括Adam,RMSProp等)有可能收敛到质量差的局部最优解。因此,几乎每个人都使用某种形式的“热身”来避免这种风险。但为什么你需要热身?

由于目前对AI社区“预热”的潜在原因的理解有限,甚至是最佳实践,作者试图揭示这个问题的基础。他们发现潜在的问题是自适应学习速率优化器有太多的变化,特别是在训练的早期阶段,并且由于训练数据量有限而可能过度跳跃,因此它可能会收敛到局部最优解决方案。

原始的亚当必须预热,否则正态分布会变形,预热分布的比较如上图所示

因此,当优化器仅使用有限的训练数据时,使用“预热”(此阶段的学习速率要慢得多)是自适应优化器需要抵消过度方差的要求。

简而言之,vanilla Adam和其他自适应学习速率优化器可能会根据早期训练数据过少做出错误决策。因此,如果没有某种形式的预热,局部最优解可能会在训练开始时收敛,这使得训练曲线由于开始不良而变得越来越长。

然后,作者在没有预热的情况下运行亚当,但在前2000次迭代(adam-2k)中避开了动量,结果类似于“亚当+热身”,从而验证了“预热”在训练的初始阶段,它扮演“减少差异”的角色,可以防止亚当在没有足够数据的情况下开始训练时陷入局部最优解决方案。

适用于多个数据集,称为Adam的优秀“继任者”

我们可以使用“预热”作为减少方差的方法,但所需的变暖程度是未知的,具体情况将根据数据集而变化。本文将数学算法确定为“动态方差减少器”。作者建立了一个“整流术语”,允许自适应动量充分表达为基本方差的函数,缓慢而稳定。完整的模型如下所示:

作者指出,在某些情况下,由于衰减和基本方差的存在,RAdam可以退化为具有动量等效的SGD。

实验表明,RAdam优于传统的手动预热调整,需要预热或猜测预热。 RAdam自动提供差异减少,这在各种预热长度和各种学习速率下优于手动预热。

简而言之,RAdam可以说是AI最先进的优化器,可以说它是Adam的优秀继任者!

论文链接:

GitHub的:

参考链接:

收集报告投诉

新智慧报告

大明

[新智元导读] UIUC中国博士团队为普通机器学习模型优化器Adam提出了一种新的改进RAdam,省去了使用Adam的“预热”链接,这可以保证学习速度和收敛速度,同时也有效地避免了模型的陷阱在“局部最优解”中,它被称为亚当的优秀继承者!

最近,UIUC中国博士生刘源的一篇新论文介绍了新改进的“整顿亚当”(RAdam)。这是基于原始Adam的改进,它可以实现Adam快速收敛的优势和SGD方法的优势,使模型能够收敛到更高质量的结果。

有外国用户测试结果,该组的效果。

以下是用户测试过程和RAdam的简要介绍:

我已经在FastAI框架中测试了RAdam并迅速获得了高精度的新记录,而不是ImageNette上两个难以被击败的FastAI排行榜。我在今年的许多论文中测试了模型,大多数模型似乎在文章中给出的特定数据集上表现良好,但在我尝试的新数据集上表现不佳。但RAdam并不相同,它似乎已经取得了性能提升,并可能成为香草亚当的永久“接班人”。

RAdam以多种学习速率提供强大的性能,同时仍能快速收敛并实现更高的性能(CIFAR数据集)

RAdam和XResNet50,5个时期的准确率是86%

Imagenette排行榜:达到当前最高性能84.6%

让我们来看看RAdam的内部机制,看看为什么会实现更好的收敛,更好的训练稳定性(对所选学习率不太敏感),以及为什么它基于几乎所有的AI应用程序都更准确。性和多功能性。

不仅适用于CNN:RAdam在Strath Word数据集上的性能优于LSTM

RAdam:无需预热,避免模型收敛到“局部最优解决方案”

作者指出,虽然每个人都在努力实现快速稳定的优化算法,但自适应学习速率优化器(包括Adam,RMSProp等)有可能收敛到质量差的局部最优解。因此,几乎每个人都使用某种形式的“热身”来避免这种风险。但为什么你需要热身?

由于目前对AI社区“预热”的潜在原因的理解有限,甚至是最佳实践,作者试图揭示这个问题的基础。他们发现潜在的问题是自适应学习速率优化器有太多的变化,特别是在训练的早期阶段,并且由于训练数据量有限而可能过度跳跃,因此它可能会收敛到局部最优解决方案。

原始的亚当必须预热,否则正态分布会变形,预热分布的比较如上图所示

因此,当优化器仅使用有限的训练数据时,使用“预热”(此阶段的学习速率要慢得多)是自适应优化器需要抵消过度方差的要求。

简而言之,vanilla Adam和其他自适应学习速率优化器可能会根据早期训练数据过少做出错误决策。因此,如果没有某种形式的预热,局部最优解可能会在训练开始时收敛,这使得训练曲线由于开始不良而变得越来越长。

然后,作者在没有预热的情况下运行亚当,但在前2000次迭代(adam-2k)中避开了动量,结果类似于“亚当+热身”,从而验证了“预热”在训练的初始阶段,它扮演“减少差异”的角色,可以防止亚当在没有足够数据的情况下开始训练时陷入局部最优解决方案。

适用于多个数据集,称为Adam的优秀“继任者”

我们可以使用“预热”作为减少方差的方法,但所需的变暖程度是未知的,具体情况将根据数据集而变化。本文将数学算法确定为“动态方差减少器”。作者建立了一个“整流术语”,允许自适应动量充分表达为基本方差的函数,缓慢而稳定。完整的模型如下所示:

作者指出,在某些情况下,由于衰减和基本方差的存在,RAdam可以退化为具有动量等效的SGD。

实验表明,RAdam优于传统的手动预热调整,需要预热或猜测预热。 RAdam自动提供差异减少,这在各种预热长度和各种学习速率下优于手动预热。

简而言之,RAdam可以说是AI最先进的优化器,可以说它是Adam的优秀继任者!

论文链接:

GitHub的:

参考链接:

频道热点
  1. 大家好,今天我告诉你一位名叫刘玉莲的老人。这位老人住在北京西城。她原本很平凡,但她对自己的金子深感忧虑。什么样的黄金是什么让老太太注意它?原来,这位老太太在清朝的宫廷里建了一块金色的牌匾。金色铭牌上
  2. 我想在2天前分享新智慧新智慧报告大明[新智元导读]UIUC中国博士团队为普通机器学习模型优化器Adam提出了一?
  3. ?如何准备远程教育作文英语科目今天的社会很难没有受过教育,也没有社会发展的地方。如果我们想要比其他人更强大,我们必须继续努力学习。有些人想申请远程教育以获得高等教育。但是,我知道这种方法将涉及英语科目
  4. 大家好,今天我告诉你一位名叫刘玉莲的老人。这位老人住在北京西城。她原本很平凡,但她对自己的金子深感忧虑。什么样的黄金是什么让老太太注意它?原来,这位老太太在清朝的宫廷里建了一块金色的牌匾。金色铭牌上
  5. 大家好,今天我告诉你一位名叫刘玉莲的老人。这位老人住在北京西城。她原本很平凡,但她对自己的金子深感忧虑。什么样的黄金是什么让老太太注意它?原来,这位老太太在清朝的宫廷里建了一块金色的牌匾。金色铭牌上
  6. 我老板报告I2天前我想分享在家选择丰田卡罗拉时,一定要考虑选择Carola还是Reynolds?丰田这次调整了价格,
  7. 虽然有历史的57,056人今晚来到工人体育场,为他们心爱的主队北京国安队欢呼。但遗憾的是,北京球迷的热情未能将国安队的魔术应用到国安队。相反,他们也成为客队13连胜的沮丧见证人。在游戏中,国家安全近
  8. ?如何准备远程教育作文英语科目今天的社会很难没有受过教育,也没有社会发展的地方。如果我们想要比其他人更强大,我们必须继续努力学习。有些人想申请远程教育以获得高等教育。但是,我知道这种方法将涉及英语科目
  9. 210X1778050X177858封面新闻,由中国教科文组织全国委员会、成都市人民政府、教科文组织终身学习研究所、教
  10. 董明珠来自媒体2011.7.18我想分享2018年,中国园区共有46,546,200名儿童,进入园区的人数也逐年增加。儿童?
新闻排行
  1. ?澎湃新闻2019年08月13日17:10  A-A+    扫一扫手机阅读  我要分享  QQ空间新浪微博腾讯微博QQ微信  韩国警方周二(8月13日)称,一对朝鲜母子近日被发现死在位于韩国首尔的一

    ?澎湃新闻2019年08月13日17:10  A-A+    扫一扫手机阅读  我要分享  QQ空间新浪微博腾讯微博QQ微信  韩国警方周二(8月13日)称,一对朝鲜母子近日被发现死在位于韩国首尔的一...

  2. ?交通一直是业内的一个大问题。随着精品店和股票市场的出现,制造商除了承受不断增加的购买成本之外,从未停止寻找更有效的用户吸引方法。在这种情况下,对付费定制用户的IP调整以及更高的关注度和转换率往往是游

    ?交通一直是业内的一个大问题。随着精品店和股票市场的出现,制造商除了承受不断增加的购买成本之外,从未停止寻找更有效的用户吸引方法。在这种情况下,对付费定制用户的IP调整以及更高的关注度和转换率往往是游...

  3. 17:03:16涂鸦聊天星座导语:8月下旬,爱情回归温暖,命运活跃,老爱主动转回星座,感情并未消失利奥狮子会?

    17:03:16涂鸦聊天星座导语:8月下旬,爱情回归温暖,命运活跃,老爱主动转回星座,感情并未消失利奥狮子会?...

  4. ?临期食品“生意”如何做大做好  常德安  市场价169元一箱的进口品牌矿泉水,99元能买2箱;进口的东南亚产白咖啡30元3盒;来自欧洲的面包干价格9.9元一箱……周末的傍晚,位于北京西单商业街的一家

    ?临期食品“生意”如何做大做好  常德安  市场价169元一箱的进口品牌矿泉水,99元能买2箱;进口的东南亚产白咖啡30元3盒;来自欧洲的面包干价格9.9元一箱……周末的傍晚,位于北京西单商业街的一家...

  5. 小推车2019.7.27我想分享谈到中国品牌的高端道路,无论是产品还是品牌,似乎每次都会出现一小部分高潮。对于一些汽车爱好者和汽车工人来说,这并不好。特别是,之前的红旗产品价值数百亿美元,并试图使自

    小推车2019.7.27我想分享谈到中国品牌的高端道路,无论是产品还是品牌,似乎每次都会出现一小部分高潮。对于一些汽车爱好者和汽车工人来说,这并不好。特别是,之前的红旗产品价值数百亿美元,并试图使自...

  6. ?如何准备远程教育作文英语科目今天的社会很难没有受过教育,也没有社会发展的地方。如果我们想要比其他人更强大,我们必须继续努力学习。有些人想申请远程教育以获得高等教育。但是,我知道这种方法将涉及英语科目

    ?如何准备远程教育作文英语科目今天的社会很难没有受过教育,也没有社会发展的地方。如果我们想要比其他人更强大,我们必须继续努力学习。有些人想申请远程教育以获得高等教育。但是,我知道这种方法将涉及英语科目...

  7. 07:13:49军事快报如果中国中南部四个国家合并为一个国家,那么它将是一个面积超过120万平方公里,人口近2亿

    07:13:49军事快报如果中国中南部四个国家合并为一个国家,那么它将是一个面积超过120万平方公里,人口近2亿...

  8. 随着经济的发展和时代的变迁,人们对珠宝和玉器的追求也开始越来越高。一些曾经不为人知的宝石正逐渐出现在

    随着经济的发展和时代的变迁,人们对珠宝和玉器的追求也开始越来越高。一些曾经不为人知的宝石正逐渐出现在...

  9. 我们生活在一个看不见的圈子里面对熟悉的环境,人与事所以我感到放心可以离开这个圈子失去舒适和轻松改变以

    我们生活在一个看不见的圈子里面对熟悉的环境,人与事所以我感到放心可以离开这个圈子失去舒适和轻松改变以...

  10. 扬子晚报网我想昨天分享7月29日至30日,由江苏交通控股有限公司和江苏省高速公路养护技术中心主办的第三届江苏省高速公路养护技术论坛在南京召开。江苏省交通控股股份有限公司党委书记,董事长蔡仁杰出席论坛

    扬子晚报网我想昨天分享7月29日至30日,由江苏交通控股有限公司和江苏省高速公路养护技术中心主办的第三届江苏省高速公路养护技术论坛在南京召开。江苏省交通控股股份有限公司党委书记,董事长蔡仁杰出席论坛...

友情链接