TensorFlow 工程总监 Quora 问答：深度学习系统瓶颈及用户痛点 - 科学 - 业界新闻

1 新智元编译1

来源：Quora

翻译：弗格森刘小芹

　　新智元祝读者国庆节快乐！

　　AI World 2016世界人工智能大会? 业界领袖回溯60年AI历史，全球对话人工智能未来挑战，权威发布2016世界人工智能名人堂及中国人工智能产业发展报告；? 国际大咖“视频”远程参会， Bengio 和李飞飞联袂寄语中国人工智能；? 探秘讯飞超脑及华为诺亚方舟实验室，最强CTO与7大研究院院长交锋；? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛，新智元三大圆桌阵容史无前例；? 中国“大狗”与"X-Dog"震撼亮相，龙泉寺机器僧“贤二”卖萌。

　　【新智元导读】TensorFlow 工程总监Rajat Monga9月29日在Quora 上答疑，就深度学习效率瓶颈、TensorFlow 用户的痛点、如何用TensorFlow进行计算机视觉研究以及Theano 和TensorFlow的关系等8大问答回答网友提问。他认为，目前TensorFlow用户面临的主要两大难题是模型实现和建立模型所需要的高水平数据库。另外，视频上的图像信息的连续性可以让无监督学习算法在不需要参考的标签的情况下直接提取有价值的图像信息，这是让机器拥有人类水平的视觉能力第一个关键。

　　1. 提高深度学习系统效率的瓶颈是什么（2016年）？

　　最近几年深度学习取得了一些成绩，主要归功于以下三个要素的综合：

算法：这方面有了一些进展，但最近的很多成果都是来源于相当古老的想法。现在深度学习也有了一些成果，我们也看到了一些进步。
数据集：缺乏足够大的数据集的话，训练大型网络就会有困难。MNIST已经达到了最大限度。像ImageNet这样的数据集确实对推动视觉研究有帮助。
计算：我认为最大的改变发生在最近几年。由于我的系统背景，我会有一些偏见，但是计算在一些深度学习的早期成果中起到很大作用。例如谷歌大脑2011年的cat paper，以及2012年Krizhevsky等人的ImageNet成果把深度学习带入了计算机视觉的最前线。

　　但是，为了让深度学习更有效，所有这些都还有很长的路要走。

计算：计算仍然是个挑战，尽管我们有了定制芯片，但后续的需求更多。
数据集：由于现有的算法多数需要监督，需要更大的数据集以推动新的研究。谷歌在这方面投入了许多，最近已经发布了一个视频数据集和两个机器人数据集。
算法：不要低估了算法这部分。像ReLu，Dropout，序列到序列和对抗生成式算法这些 idea 带来了很大的改变。
计算，我们不大可能在传统的硬件条件下得到1000倍的计算能力的提高。这需要算法和计算的协同设计，例如，我们能做出一个1000倍参数，但只需10倍计算能力的模型来吗？我认为做出能解决这个问题的稀疏化模型将会带来巨大的改变。

　　2. TensorFlow最大的用户痛点是什么？怎样对付它们？

　　TensorFlow用户常提问的两个方面是：模型实现和建立模型所需要的高水平数据库。我们已经在这两方面有了很大的进展：

模型：在社区的帮助下，我们在GitHub上的模型集（https://github.com/tensorflow/models）越来越多了。此外，有相当部分是TensorFlow用户和作者本人在研究论文中实现过的模型。这些只需在GitHub上简单搜索就能找到。
库：我们在tf.learn上有了很大的进展，而且应用广泛。此外，Keras是使用TensorFlow的另一个很好的库。

　　3. 深度学习在视频上的应用潜力有哪些？

　　视频有很多有趣的地方。虽然我们在ImageNet的成果让我们在视觉上取得了重大突破，但是，我们距离人类水平的视觉依然还很远，其中一些原因是：

我们从图像上获得的可用信息依然有限，因为照片记录的只是快门按下瞬间的信息。
缺乏大型的标签数据集。虽然 ImageNet 很不错，但是要想延伸到所有人类可以识别的物体种类，还是非常困难。

　　视频有潜力能解决这两大难题，帮助机器获得人类水平的视觉。每一段视频中，彼此相关的、连续的帧提供了关于现实世界更丰富的信息，让模型可以创建3-D的视角来看世界，但是不需要立体是视觉。此外，连续的帧也使得无监督学习算法可以在不需要参考的标签的情况下直接提取有价值的图像信息。

　　4.怎样利用TensorFlow进行计算机视觉研究？

　　有关计算机视觉模型我极力推荐Pete Warden的这篇文章: TensorFlow for Poets（https://petewarden.com/2016/02/28/tensorflow-for-poets/）对初接触TensorFlow的人来说这篇文章是非常好的指南，从安装TensorFlow到利用一个小图像数据库适配一个视觉模型，都能对你有所帮助。

　　5.TensorFlow在多大程度上受到Theano的启发？

　　我们从我们的先驱DistBelief上学到了很多经验，也把这些经验应用于TensorFlow。我们观察过所有现有的深度学习框架，团队成员中也有一些这些框架包括Theano，Torch和Caffe的开发者。所以我们的设计在很多方面和Theano很像，例如，怎样支持自动识别，怎样使用符号表达式以及神经网络分层，尤其是基于基本数学和线性代数的层。

　　这些都是伟大的框架，我们很幸运能够有向他们学习的机会，并将推动该领域的发展。

　　6. 假如计算能力提升十倍，AI研究会受到怎样的影响？

　　这是个有趣的思考。我想目前阻碍AI发展的有因素有4点：

计算（Moore’s Law，CPUs，ASICs）
数据（构架好的数据，而不是诸如ImageNet上的网络数据）
算法（研究和想法，例如backprop，CNN，LSTM）
基础架构（Linux, TCP/IP, Git, ROS,PR2, AWS, AMT, TensorFlow, etc.）

　　你会发现计算只是其中的一个因素。所以我认为，就算计算能力提升10倍也不会有什么改变。虽然由于能快10倍地得到实验的反馈结果，我的迭代周期肯定会改善。我们目前的许多实验或许也能得到改善（不过不一定，因为很多模型会受到内存限制），所以现有的一些模型能得到好一些的结果。但除此之外，我认为不会立刻有很令人兴奋的改变。

　　我认为第4点目前来说是很大而且进展缓慢的限制因素，这就是为什么我很高兴看到OpenAI的出现，我们能真正向它投入资源，建立各种AI专门的基础架构。最后是第3点，我认为它是最重要的因素——就算我有了很强的计算能力，有了数据，也有理想的基础架构，我也不知道用它来运行什么算法才能得到能思考、能讲话、会学习、会探索等等的AI。

　　7. 深度学习方面有哪些尚未出现的有用工具？

　　作为一名程序员，我喜欢思考编程和实验的深度学习模型。所有应用于那些领域的工具也和这些领域相当关系密切。TensorFlow之于深度学习就像编程语言之于编程。完善这个生态系统还有很多工作要做。

　　例如，好的调试工具能帮助研究者理解为什么他们的模型不学习，好的实验管理能让他们更容易进行和分析更多的实验。

　　8. AI研究已有无数的挑战，谷歌大脑团队研究的主要问题是什么？

　　我们研究那些我们认为能对我们的使命有帮助的问题，我们的使命是造出有助于人类生活的智能机器。我们目前的一些研究包括：机器学习算法、机器人、医疗、以及自然语言理解。更多有关我们的研究领域和出版物的信息可以在官网中查阅：https://research.google.com/teams/brain/这里的每个领域都是为了更广泛地理解机器智能所做的艰苦挑战。

　　9. 从DistBelief 到TensorFlow中，最有价值的经验是什么？

　　当下的深度学习框架有三个关键基本要求，我会从DistBelief 到TensorFlow的演进讲起，回答这一问题。

可扩展性：DistBelief 被设计成可扩展的，使用了大量的CPU。举个例子，我们的cat paper 使用了16000核。2011年的时候，这是相当了不起的，但是随着硬件大发展和GPU、TPU的出现，对于我们的数据中心来说，支持其他的平台也变得重要起来。在如何在多台机器间进行扩展上，我们学习了很多，比如，我们的Asynchronous SGD 和更近一些的Synchrnous SGD 都是从Disbelief 开始的，但是即使是在今天也会可以应用的。
灵活性：DisBelief 让我们可以扩展，但是，它的建立是在我们中大多数人学会充足的深度学习知识之前。它在真实的产品中运行的很好，这些情况下，在大规模的数据集中进行训练是至关重要的，但是，在采纳新的概念时，就会变得很难用。前端的几层也进行了多次的升级，我们可以直接采用这些学习，把他们运用到从头开始重新设计TesorFlow上。
可移植性：在过去的几年间，大家对把深度学习部署到手机和其他设备上非常感兴趣。再次的，DistBelie设计时并没有这一用途，所以我们的用户最后只有自己写专用的数据库。有了TensorFlow，我们就可以从用户身上进行学习，事实上，也有一些开发者在TensorFlow上加入了我们，一起实现了手机平台上的深度学习部署，其中包括g Android、iOS、 Raspberry Pi 等。

　　10 考虑到高昂的计算成本，怎样才能让更多的人可以使用深度学习？

　　从零开始在一个大型的数据库上训练模型在计算上的成本消耗是非常高的。但是，大多数人并不需要从零开始。我们有很多已经在大型的数据库上训练的先进模型，人们可以直接使用，或者稍加调整。比如，图像模型（https://github.com/tensorflow/models/tree/master/inception），文本分类模型（https://github.com/tensorflow/models/tree/master/syntaxnet）。此外，直接在云端使用API也是一个很好的办法。

　　11. 非美国常驻者能申请 Google Brain Resident Program吗？

　　能。这个项目现在已有许多非美国常驻者，我们鼓励来自世界各地的申请者。更多细节请查看官网：Brain Residency （https://research.google.com/teams/brain/residency/）

　　豪华嘉宾阵容，共飨 AI 盛宴

　　7 大院长齐聚新智元智库院长圆桌论坛

　　2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”，重量级研究院院长7剑下天山，带来最前沿的AI研究动态、剖析技术发展趋势。

　　七位人工智能界“高手”现场过招，思想的激烈碰撞会给目前的人工智能发展带来哪些洞见？七位院长对行业的发展会有哪些前瞻揭秘？10月18日下午，2016 世界人工智能大会技术论坛，答案将逐层揭晓。

　　新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容：美团技术学院院长刘江担任主持人，微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

　　2016世界人工智能大会技术论坛议程

　　扫描二维码购票：

　　购票链接：http://www.huodongxing.com/go/aiworld2016

　　也可点击‘阅读原文’直接购票。

阅读(0)