您当前的位置: 首页 > macc

神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练

2019-07-14 11:44:40

AI 科技评论按:深度中有许多连接权重,这些权重的值对网络表现有巨大影响;通过反向传播可以定向优化这些权重,提高网络的表现,这个过程被称作「训练」;训练过程通常需要多轮迭代,需要大量的稠密矩阵运算;这些都是领域内的常识。因为训练过程如此地重要,深度学习研究人员们都会设立多 GPU 阵列加速训练过程,关于训练技巧的论文连篇累牍,甚至还有「深度学习调参师」、「玄学调参」、「希望上帝给我一个好的初始随机种子」之类的调侃。

那么连接权重是影响神经网络表现的唯一因素吗?应该也不是。不仅近几年中人类手工的许多网络架构以更少的参数、更高的表现证明了网络架构重要性,神经架构搜索(NAS)更在各种任务中分别找到了可以达到更高表现的网络架构。不过,这些网络架构都仍然需要经过适当的训练才能得到好的表现,似乎只是说明了「适当的架构和适当的训练可以相得益彰」。

本着对照实验的精神,我们似乎应该设计另一组实验:为了说明训练的影响,我们在相同架构的网络上做不同的训练;那为了说明架构的影响,我们需要在不同架构的网络上做相同的训练;根据实验结果我们就可以定性、定量地分析训练和架构各自的影响,厘清这场神经网络的「气宗与剑宗之争」(网络结构与训练的影响之争)。

说明架构影响的这件事并不好做,如何在不同架构的网络上做相同的训练就首先是一个难题。谷歌大脑的研究人员 Adam Gaier 和 David Ha 在近期的论文《Weight Agnostic Neural Networks》( https://arxiv.org/abs/1906.04 58 )中做出了自己的尝试,得到了有趣的结果。雷锋网 AI 科技评论简单介绍如下。

寻找连接权重不重要的神经网络 之前就有研究人员展示了权重随机初始化的 LSTM 和 CNN 网络具有意外地好的表现,在这篇论文中两位作者更进一步地提出要寻找 weight agnostic neural networks,WANN,权重不可知的神经网络,即具有强大的归纳偏倚、以至于只使用随机权重就能够执行多种任务的神经网络。

为了能够完成实验,作者们提出了新的实验思路:

网络中的每个连接都使用同一个随机参数作为权重 —— 最小化权重(也就是训练过程)的影响,同样也最大程度简化了模型表现的采样空间

在很大的范围内取这个参数的值,多次评估网络的表现 —— 不再以最优的权重设置作为网络表现评价的唯一目标

根据算法信息理论,作者们并不满足于能够找到满足要求的网络,而是能最简单地描述的网络。比如,有两个不同的网络能带来类似的表现的话,他们会留下更简单的那个 —— 网络大小也就成为了搜索过程中的一个附加目标。结合连接计算成本以及其它一些技巧,他们希望最终找到的网络要尽可能简单、模块化以及可演化,并且更复杂的网络必须能够带来更好的表现。

某个搜索过程的图示:早期的网络搜索结果在各种参数取值下表现都不好;后来网络建立起一些输入量之间的联系后,在某些范围的参数取值下可以达到较好的表现 具体搜索过程请参见论文原文。

实验结果 作者们在多个连续控制任务中评估了搜索得到的网络。

CartPoleSwingUp,一个小车上用铰链悬挂一根棍子,小车只能通过横向移动把棍子在上方直立起来并保持;这个过程里小车只能在有限的范围内运动。这个任务无法通过一个简单的线性控制器解决。

BipedalWalker,控制一个双足机器人的两个髋关节和两个膝关节,让它在随机地形上行走。

左图:为 BipedalWalker 任务找到的网络;右图:为 CarRacing 任务找到的网络

上图表格展示的是 WANN 找到的网络在超过 100 次试验中的表现(所以分数呈现为范围)。纵向对比的是传统的强化学习算法,横向的四项子分数分别是:

Tuned shared weight,所有连接使用同一个权重,从 (-2,2) 范围内取值时的最好表现;

根据表格可以看到,传统强化学习算法中的权重必须经过训练以后才能得到好的表现,相比之下 WANN 寻找到的网络只需要所有连接都使用同一个随机权重就有机会得到好的表现。

所有连接使用同一个权重时得到的最好表现是喜人的,晃悠几次就可以让小棍平衡,走路时可以有高效的步法,开赛车的时候甚至还能从内侧切弯。而进一步进行传统意义上的训练以后,网络的表现还能有进一步的改善。

另外,作者们也做了监督学习(MNIST 数字识别)实验,也找到了能够比随机权值 CNN 得到更好表现的网络。

结果解读

搜索到的在 BipedalWalker 中表现最好的网络结构 由于 WANN 搜索到的网络相对简单,作者们也尝试解读这些网络架构。首先,网络架构中明显地为任务编码了强大的偏倚,在如此浅层的连接中可以明显看到网络对不同输入信号的处理加工过程;但同时,找到的网络的表现也并不是与权重的值完全无关,在某些随机值下还是会出现不好的表现。可以看作,WANN 搜索到的网络对输入输出间的关系进行了强大的编码,虽然权值的大小相比之下变得不重要,但信号的连续性、符号一致性还是有影响的。观察搜索过程中网络如何一步步变得复杂的也能得到类似的感受。

WANN 搜索到的网络的最佳表现最终还是比不上 CNN 的最佳表现,这并不奇怪,毕竟 CNN 本身也是带有很强的视觉偏倚的架构,而且经过了如此多年的持续优化改进。

在这项研究中雷锋网 AI 科技评论感觉到的是,解决指定任务所需的偏倚总需要通过某种方式编码到网络内。传统的深度学习研究中都是固定网络架构(基础模块和连接方式),用连接权重的更新体现这些偏倚;在 WANN 中,架构和权重的位置调换,用随机取值且不要求优化过程的共享权重限制了偏倚在权重中的储存,从而得以让偏倚显式地体现为架构的更新。作者们也在论文的讨论章节中指出,这种思路在小样本学习、在线学习、终生学习中都可能能够派上用场(持续地优化更新网络架构)。这不仅新奇,也是继续探索神经网络潜力的一条新的道路。「气」和「剑法」并重,也许未来我们有机会能够改进神经网络的更多弱点。

(公众号:雷锋网) AI 科技评论报道。

论文原文地址: https://arxiv.org/abs/1906.04 58

互动式论文页面(带有 demo): https://weightagnostic.github.io/

 •  1天前 猎云网近日获悉,AI神经网络解决方案提供商燧原科技宣布完成 亿元A轮融资,由红点创投中国基金领投,海松资本、云和资本、腾讯、阳光融汇资本、信中利资本跟投。本轮资金将用于市场拓展、业务落地、以及产品量产和技术支持,并推动后续系列产品的开发。2018年8月8日,燧原科技宣布完成 .4亿元Pre-A轮融资,腾讯领投,种子轮投

 •  8天前 本文为 AI 研习社编译的技术博客,原标题 :Shallow Neural Networks 作者 |  Rochak Agrawal翻译 | hxyzzz0     编辑 | 邓普斯•杰弗、王立鱼原文链接:https://towardsdatascience.com/shallow-neura

 •  10天前 我们已经讨论过很多关于智能城市的话题。越来越多的科技企业加入这个产业大命题,从无人驾驶、车路协同,再到城市大脑,一系列软硬件要素蓬勃而出,誓要让交通生活旧貌换新颜。 截至2018年底,我国 智能交通 千万级以上的项目(不含公路信息化)就有1167个。 然而,就在大家普遍在对车与路的故事满怀

 •  1 天前 图片来源@视觉中国文|脑极体身为现代都市人,如果没有一点 焦虑感 ,简直都不好意思跟人打招呼。什么,你竟然每天都乐观积极正能量,是不是家里有矿?佛系生活,跟不思进取有区别吗?适当焦虑,确实有助于人们努力奋斗、实现自我,但长时间地沉浸在焦虑之中,却有可能导致身体的炎性,加快衰老进程,更严重的,带来

 •  24天前 雷锋网 AI 科技评论按,本文作者[韦阳](https://www.zhihu.com/people/godweiyang/posts 韦阳 ),本文首发于知乎专栏[自然语言处理与深度学习](https://zhuanlan.zhihu.com/godweiyang 自然语言处理与深度

 •  28天前 图片来源@视觉中国文|脑极体如果问一个问题 能够进行深度神经网络计算的芯片有哪些?大家给出的答案可能五花八门:CPU、GPU、DSP、NPU 过去几年里,电子计算已经成为实现人工智能算法 尤其是深度神经网络模型

 •  1月前 公众号/将门创投From: Wired 编译: Ace相信很多朋友在尝试调戏Siri、小冰等AI助手时,应该都获得过令人捧腹大笑的回答,Siri甚至一度荣获“最佳段子手”称号。但是当你尝试对它们使用一些连人类都得思考一会儿的双关语时,他们往往就只能无奈回答“抱歉请您再说一遍”了。创造性语言,尤其是具备基本的幽默感,是人

 •  1月前 腾讯优图实验室联合广东省肺癌研究所吴一龙教授/钟文昭教授团队,与清华大学以及国内多家中心呼吸科/放射科团队等共同开发了基于卷积神经网络算法的肺结节诊断模型,近日,该初步研究成果已被全球癌症领域知名医学期刊《肿瘤学家》(《The Oncologist》)收录并全文发表。 随着低剂量螺旋CT(LDCT)的普及,检出

 •  1月前 雷锋网 AI 科技评论按,深度神经网络(DNN)在解决图像分类、文本识别和语音转换等实际难题方面具有显著的效果。然而,为一个给定的问题设计一个合适的 DNN 体系结构仍然是一个具有挑战性的任务。考虑到架构可能需要巨大的搜索空间,从头开始为特定的应用程序设计一个网络在计算资源和时间方面花销可能非常大。神经网络架构搜索和

 •  1月前 雷锋网 AI 科技评论按,近日,复旦大学计算机科学学院副教授邱锡鹏发布了一本《神经网络与深度学习》教材,这份学习资源一经发布就广受好评。目前,该资源在 github 上已经斩获 5000+ star。 2015 年,复旦大学计算机学院开设了《神经网络与深度学习》课程。由于当时还没有关于深度学习的系统介绍,为了给

专注科技资讯挖掘,通过关键词过滤科技资讯,提高阅读效率10倍以上。 网站定位极少数高效能人士,精准快速定位资讯,大大提高阅读效率。

推荐阅读
  • MACC证书国家认可吗
    MACC证书国家认可吗

    在全球经济飞速发展、各行各业深受信息化、科技化以及大数据时代发展影响的今天,商业环境面临着前所未有的机...[详细]

  • MACC证书的含金量
    MACC证书的含金量

    近年来,会计“考证热”一直持续,会计人才队伍越来越壮大。基础财会会计的供给越来越大,但是高端会计人才...[详细]

  • MACC是什么证书
    MACC是什么证书

    大家都知道一直以来,会计类专业都是热门专业,会计人才市场在饱和,已经出现供大于求的局面。在竞争力这么...[详细]

  • MACC是什么
    MACC是什么

    会计是什么想必大家都了解,会计主要是从数量方面反映各单位的经济活动情况,通过一定的核算方法,为经济管...[详细]

  • MACC考试通过率
    MACC考试通过率

    很多人都了解管理创造效益,所以管理对于企业经营的重要性不言而喻。企业经营是为了盈利,而管理会计是对企...[详细]

  • MACC含金量
    MACC含金量

    从2013年起,财政部连续6年力推管理会计,至此,财政部基本完成了以基本指引为基础,以应用指引为主体,以案例...[详细]

图文聚焦