Jeff Dean执笔:一文看尽2018谷歌AI重大成果

2019/01/17/ 11:13

1月16日消息,谷歌高级研究员、谷歌AI负责人杰夫·迪恩(Jeff Dean)日前在官方博客上撰文,回顾谷歌2018年的AI研究成果,全文摘要如下:

对于谷歌的研究团队来说,2018年是一个令人兴奋的年度,我们从许多方面推进了技术进步,包括基础计算机科学研究成果和出版物、研究新兴领域的应用(如医疗保健和机器人)、开源软件的贡献以及谷歌产品团队的密切合作,所有这些努力都旨在提供有用的工具和服务。以下是我们对2018年所取得成果的总结,我们期待着新的一年。

道德原则与人工智能

在过去几年里,我们观察到AI领域取得的重大进步,以及它对我们的产品和数十亿用户日常生活的积极影响。对于我们这些在这个领域工作的人来说,我们深刻认识到,AI应该是一种造福世界的力量,它应该被合乎道德地应用,并被用于解决对社会有益的问题。

今年我们发布了《谷歌AI原则》,支持开发负责任的AI实践活动,概述了实施的技术建议。它们结合起来,为我们提供了一个评估谷歌AI发展的框架,我们希望其他组织也可以利用这些原则来帮助塑造他们自己的思维。重要的是要注意,因为这一领域的发展相当迅速,在某些原则下的最佳实践,如“避免创建或加强公平偏好”或“对人民负责”,也正在改变和改善我们在深度学习公平性和模型可解释性等新研究领域的研究。

这项研究反过来会促使我们的产品加速进步,让他们更具包容性和更少的偏见,比如我们在Google Translate中减少性别偏见,并允许浏览更具包容性的图像数据集和模型,使计算机视觉实现全球文化的多样性。此外,这项工作允许我们与更广泛的研究社区分享最佳实践。

社会公益AI

AI用于解决现实社会问题的潜力是显而易见的。AI如何应用于解决现实问题的一个例子是,我们在洪水预测方面的努力。通过与许多谷歌团队的合作,这项研究旨在提供关于洪水可能发生的准确范围和范围以及其他细粒度信息,使那些在洪水易发地区的人们能够更好地决定如何最好地保护他们自己和他们的财产。

第二个例子是我们在地震余震预测方面取得的成果,与传统的、基于物理的模型相比,机器学习(ML)模型可以更准确地预测余震的位置。也许更重要的是,由于ML模型被设计成可解释的,科学家们已经能够对余震的行为做出新的发现,这不仅使预测更加准确,而且使理解达到了新的水平。

我们也看到了大量的外部研究者,他们有时在与谷歌的研究人员和工程师合作,使用像TensorFlow这样的开源软件应对广泛的科学和社会问题,如使用卷积神经网络识别座头鲸、检测新的系外行星以及确定病变的木薯植物等等。

为了刺激这个领域的创造性活动,我们与Google.org合作推出了Google AI for Social Impact Challenge挑战赛,获胜的个人和组织可以获得2500万美元的赠款资金,还有来自谷歌研究科学家、工程师和其他专家的指导和建议,帮助将他们拥有更高潜在社会影响的项目从想法变成现实。

辅助技术

我们的大部分研究集中在使用ML和计算机科学来帮助用户更快、更有效地完成任务放慢。通常,这些成果是通过与不同的产品团队协作取得的。其中一个例子是Google Duplex,这个系统需要研究自然语言和对话理解、语音识别、文本-语音、用户理解以及有效的UI设计,从而使用户能够在体验中说“今天下午4点能帮我理发吗?”,虚拟助理将代表用户通过电话进行交互,并自行处理必要的细节。

其他的例子包括Smart Compose,这款工具使用预测模型给关于如何撰写电子邮件提供相关建议,使书写电子邮件变得更快、更容易。其他还有Sound Search,这种技术建立在Now Playing功能之上,使用户能够快速、准确地发现播放歌曲。此外,Android的Smart Linkify展示了如何使用设备内置深度学习模型做出给多不同种类的文本。

我们研究的一个重要重点是帮助像Google Assistant这样的产品支持更多的语言,并允许更好地理解语义相似性,甚至是使用截然不同的方式来表达相同的概念或想法。在这些新产品功能的基础上,我们进行了一项研究,旨在改进语音合成和文本-语音的质量,以适应没有太多培训数据的语言。

量子计算

量子计算是一种新兴的计算范式,它能够解决传统计算机无法解决的、具有挑战性的问题。在过去几年里,我们一直在积极地进行这一领域的研究,我们相信该领域正在展示在至少一个问题上的尖端能力(所谓的量子霸权),这将是该领域的一个分水岭事件。在过去的一年里,我们取得了许多令人兴奋的新成果,包括Bristlecone的开发,这是一种新的72量子位量子计算设备,它可以在量子计算机迈向量子霸权的过程中,扩大可解决问题的范围。

我们还发布了面向量子计算机的开源编程框架Cirq,并探索了如何将量子计算机用于神经网络。最后,我们分享了我们在理解量子处理器性能波动方面的经验和技术,并分享了许多关于量子计算机作为神经网络计算基础应被如何应用的想法。我们期待着2019年量子计算领域出现激动人心的成果!

自然语言理解

谷歌的自然语言研究在2018年取得了令人兴奋的成果,既有基础研究,也有以产品为重点的合作。从2017年开始,我们对Transformer进行了改进,开发了一种名为Universal Transformer的新模型的实时并行版本,该版本在翻译和语言推理等自然语言任务中显示出强大的优势。

我们还开发了BERT,这是第一个深度双向、无监督的语言表达,它只使用纯文本语料库进行预先训练,然后可以使用迁移学习对各种自然语言任务进行微调。与以前最先进的结果相比,BERT在11个自然语言任务中都有了显著的改进。

BERT还在非常具有挑战性的GLUE基准测试中将最先进的部分提高7.6%。

除了与各种研究团队协作以支持Smart Compose和Duplex之外,我们还努力使Google Assistant更好地处理多语言用例,目标是使该助手能够自然地与所有用户对话。

感知研究

我们的感知研究解决了让计算机理解图像、声音、音乐和视频的难题,并为图像捕获、压缩、处理、创造性表达和增强现实提供更强大的工具。2018年,我们的技术改善了Google Photos组织用户最关心内容的能力,比如人和宠物。

Google Lens和Google Assistant让用户了解自然世界,实时回答问题,并在Google Images中使用Google Lens做更多的事情。Google AI使命的一个关键方面,就是让其他人从我们的技术中受益,今年我们在改进Google API的功能和构建模块方面取得了很大进展。示例包括在Cloud ML API中的视觉和视频功能的改进和新增功能,以及通过ML Kit的与人脸相关的设备构建块。

Lens自动识别了宠物狗的种类

在2018年,我们对学术研究的贡献包括在3D场景理解的深度学习方面取得的进展,比如立体放大,它可以合成新的场景真实感视图。我们正在进行关于更好地理解图像和视频的研究,它使用户能够发现、组织、增强和改进谷歌产品中的图像和视频,如Google Images、YouTube、搜索等。

在音频领域,我们提出了一种用于语义音频表示的无监督学习方法,以及对富有表达性的语音合成的显著改进。多模态感知是个日益重要的研究课题。Looking to Listen将输入视频中的视觉和听觉线索结合起来,以隔离和加强视频中所需的说话者的声音。这项技术可以支持许多应用,从视频中的语音增强和识别、视频会议,到改进的助听器,尤其是可以应用于多人讲话的场景。

在资源受限的平台上实现感知变得越来越重要。MobileNetV2是谷歌的下一代移动计算机视觉模型,我们的MobileNets被广泛应用于学术界和工业界。MorphNet提出了一种学习深度网络结构的有效方法,在尊重计算资源受限的情况下,可以全面提高图像和音频模型的性能。最近对移动网络架构自动生成的研究表明,实现更高的性能是可能的。

计算摄影

在过去的几年里,手机摄像头的质量和功能都有了显著的提高。部分原因是手机中实际使用的物理传感器有所改进,但更大的原因是计算摄影这个科学领域取得的进步。我们的研究团队发布了他们的新研究技术,并与谷歌的Android和消费硬件团队紧密合作,以最新的Pixel和Android手机及其他设备形式,将这项研究交付到用户手中。

2014年,我们引入了HDR+技术,通过该技术,摄像头可以捕捉到一组帧,在软件中对齐这些帧,并将它们与计算软件合并在一起。最初在HDR+的工作中,这是为了使图片具有比单次曝光更高的动态范围。然而,通过捕捉大量的帧,然后对这些帧进行计算分析成为了一种通用的方法,这种方法在2018年已经使摄像头取得了许多进步。例如,它允许在Pixel 2中开发动态照片,在Motion Stills中实现增强现实模式。

今年,我们在计算摄影研究方面的主要工作之一是创造一种新的能力,即夜视,它使Pixel手机相机能够“在黑暗中观看”,赢得了媒体和用户的赞扬。当然,夜视只是新的软件支持的摄像头功能之一,我们的团队还开发出其他帮助你美化照片的技术,包括使用机器学习提供更好的肖像模式拍摄等。

算法和理论

算法是谷歌系统的支柱,涉及我们所有的产品,从Google trips背后的routing算法到Google cloud的consistent hashing算法。在过去的一年里,我们继续在算法和理论方面展开研究,涵盖了从理论基础到应用算法,从图挖掘到隐私保护计算的广泛领域。

我们的优化工作涉及从机器学习的连续优化到分布式组合优化的各个领域。在前一个领域,我们研究训练神经网络随机优化算法的收敛性(获得了ICLR 2018年最佳论文奖),展示了流行的基于梯度的优化方法(如ADAM的某些变体)的问题,但为新的基于梯度的优化方法提供了坚实的基础。而在分布式优化中,我们致力于通过轮压缩(round compression)、核心集(core-sets)、子模块最大化以及k核分解等方式,来提高组合优化,例如图中匹配。

在算法选择理论中,我们提出了新的模型,并研究了多项式逻辑的重建和学习问题。我们还研究了神经网络可学习的函数类别,以及如何使用机器学习来改进经典的在线算法。

在谷歌,理解具有强大隐私保障的学习技巧对我们非常重要。在此背景下,我们开发了两种新的方法来分析如何通过迭代和洗牌来放大不同的隐私。我们还应用了不同的隐私技术来设计针对游戏的激励意识学习方法。这种学习技巧在有效的在线市场设计中已经有所应用。我们在市场算法领域的新研究还包括,帮助广告主测试广告拍卖的激励兼容性技术,以及优化应用内广告的广告刷新技术。

软件系统

我们对软件系统的大部分研究继续与构建机器学习模型有关,特别是与TensorFlow有关。例如,我们发表了TensorFlow 1.0动态控制流的设计和部署。我们的某些新研究引入了我们所谓的Mesh TensorFlow系统,它使得使用模型并行性(有时使用数十亿个参数)来指定大规模分布式计算变得更容易。

我们还发布了JAX,这是一种由加速器支持的NumPy变体,支持Python函数按照任意顺序自动区分。虽然JAX不是TensorFlow的一部分,但它利用了许多相同的底层软件基础结构(例如XLA),它的某些创意和算法对我们的TensorFlow项目很有帮助。最后,我们继续研究机器学习的安全性和私密性,以及开发用于AI系统安全性和私密性的开源框架,如CleverHans和TensorFlow Privacy。

对于我们来说,另一个重要的研究方向是ML在软件系统中的应用,特别是在堆栈的许多层次上。例如,我们继续使用分层模型将计算放置到设备上,并帮助学习内存访问模式。我们还继续探索如何使用学习索引来替代数据库系统和存储系统中的传统索引结构。正如我去年所写的,我们认为在计算机系统中机器学习的使用方面,我们只是触及了皮毛。

在2018年,得益于谷歌的Project Zero团队与其他人的合作,我们了解到了现代计算机处理器中新的严重安全漏洞——Spectre和Meltdown。这些以及相关的漏洞将使计算机架构研究人员非常忙碌。在我们对CPU行为建模的持续努力中,我们的Compiler Research团队将他们用于测量机器指令延迟和端口压力的工具集成到LLVM中,从而做出更好的编译决策。

谷歌产品、我们的云产品以及机器学习模型的推论,关键依赖于为计算、存储和网络提供大规模、可靠、高效的技术基础设施的能力。去年的几个研究重点包括谷歌的Software Defined Networking WAN,这是个独立的查询处理平台,对以不同格式存储的文件执行SQL查询。在许多存储系统中,我们大量使用代码评审报告,调查代码评审背后的动机、当前实践、开发人员满意度以及挑战。

AutoML

AutoML,也称为元学习,是使用机器学习来自动化机器学习的技术。我们已经在这个领域进行了多年的研究,我们的长期目标是开发一种学习系统,这种系统能够利用从以前已经解决的其他问题中获得的见解和能力,自动地解决新问题。我们在这个领域的早期工作主要是使用强化学习,但我们也对进化算法的使用感兴趣。

去年,我们展示了如何使用进化算法为各种视觉任务自动发现最先进的神经网络架构。我们也探讨如何将强化学习应用于其他问题,而不仅仅是神经网络架构搜索,结果显示它可用于1)自动生成图像变换序列,改善各种图像模型的准确性;2)寻找新的符号表达式优化,它比常用的优化更新规则更有效。我们在AdaNet上的工作展示了如何得到具有学习能力的快速灵活的AutoML算法。

TPU

张量处理单元(TPU)是谷歌内部开发的ML硬件加速器,从最初设计时就支持大规模的训练和推理。TPU使谷歌的研究取得了突破性进展,如BERT(前面已经讨论过),同时也使世界各地的研究人员能够通过开放源码在谷歌的研究基础上进行构建,并追求自己的新突破。例如,任何人都可以通过Colab在TPU上免费调优BERT, TensorFlow Research Cloud为成千上万的研究人员提供了从更大数量免费Cloud TPU计算能力中获益的机会。

我们还使多代TPU硬件作为商业Cloud TPU,包括称为Cloud TPU Pods的ML超级计算机,这使得大规模的ML培训更加容易获得。在内部,除了支持更快的ML研究进展外,TPU还推动了谷歌核心产品的重大改进,包括搜索、YouTube、Gmail、Google Assistant、Google Translate等。我们期待着在谷歌和其他地方的ML团队通过TPU提供的前所未有的计算规模,使用ML实现更多的功能。

开源软件和数据集

发布开源软件和创建新的公共数据集是我们为研究和软件工程社区做出贡献的两种主要方式。我们在这个领域最大的努力之一是TensorFlow,这是我们在2015年11月发布的、非常流行的ML计算系统。我们在2018年庆祝了TensorFlow的三周岁生日,在这段时间里,TensorFlow的下载量已经超过3000万次,超过1700个贡献者增加了4.5万次提交。

在2018年,TensorFlow发布了8个主要版本,并增加了许多重要功能,如即时执行和发行策略。我们发起了公共设计评论,让社区参与到开发过程中来,我们还通过特殊利益团体让贡献者参与进来。随着TensorFlow Lite、TensorFlow.js以及TensorFlow Probability等相关产品的推出,TensorFlow生态系统在2018年大幅增长。

我们很高兴TensorFlow在顶级机器学习和深度学习框架中拥有最强的Github用户忠诚度。TensorFlow团队还致力于更快地解决Github问题,并为外部贡献者提供顺畅的路径。在研究方面,根据谷歌Scholar的数据,我们在发表论文的基础上,继续为世界上大部分机器学习和深度学习研究提供动力。

除了继续开发现有的开源生态系统,我们在2018年引入了一个用于灵活、可复现强化学习研究的新框架,一个用于快速理解数据集特征的新可视化工具(无需编写任何代码),一个使用TensorFlow.js在浏览器中进行实时t-SNE可视化的库,以及用于处理电子医疗数据的FHIR工具和软件等。

公共数据集通常是个巨大的灵感来源,可以在许多领域帮助取得巨大的进展,因为它们不仅让更广泛的社区能够访问有趣的数据和问题,还提供了健康的竞争驱动力,以促使在各种任务上取得更好的结果。今年我们很高兴发布了谷歌数据集搜索,这是一种用于从所有web站点查找公共数据集的新工具。多年来,我们还策划和发布了许多新颖的数据集,包括数百万张带注释的普通图像或视频、用于语音识别的孟加拉语众源数据集以及机械手抓取数据集等等。在2018年,我们又增加了更多的数据集。

我们发布了Open Images V4,这是个包含1540万个绑定框的数据集,囊括了600个类别中190万张图像,以及19794个类别中的3010万个经过人工验证的图像级标签。我们还扩展了这个数据集,增加了来自世界各地的人们和场景的多样性,增加了来自世界各地的数万名用户使用crowdsource.google.com生成的550万条注释。

我们发布了原子视觉动作(AVA)数据集,该数据集提供视频的视听注释,以提高理解视频中人类行为和语言的技术水平。我们还发布了更新后的YouTube-8M,并举办了第二届YouTube-8M Large-Scale Video Understanding Challenge and Workshop。HDR+ Burst摄影数据集的目标是在计算摄影领域开展广泛的研究,Google-Landmarks是一种新的数据集,也是对landmark recognition的挑战。

我们还不时地为研究界建立新的挑战,使我们能够共同努力解决困难的研究问题。通常这些都是通过新数据集的发布完成的,但并不总是这样。今年,我们围绕Inclusive Images Challenge推出了挑战,努力使更强大模型摆脱各种各样的偏见。

机器人研究

我们在理解 ML 如何教会机器人在现实世界里行动方面取得了重大进展,该研究教机器人抓取从来没见过的物体,相关论文获得CoRL’18最佳论文。我们还通过结合ML和基于采样的方法(ICRA'18最佳论文),在学习机器人运动方面取得了进展。我们第一次能够在真实机器人上成功地在线训练深度强化学习模型,并且正在寻找新的、基于理论的方法,来学习稳定的机器人控制方法。

AI在其他领域的应用

在2018年,我们已经将ML应用于物理和生物科学上各种各样的问题。使用ML,我们可以为科学家提供相当于成百上千个研究助理来挖掘数据,从而解放了科学家,使他们变得更有创造力和生产力。我们在《Nature Methods》上发表了关于神经元高精度自动重建的论文,其中提出了一种新的模型,与以往的深度学习技术相比,该模型大幅提高了连接体数据自动解释的准确性。

健康研究

在过去的几年里,我们一直将ML应用于健康,这是个影响我们每个人的领域,也是一个我们相信ML可以通过增加医疗专业人员直觉和经验而产生巨大影响的领域。我们在这个领域采用的一般方法是,与医疗机构合作解决基础研究问题,然后将结果发表在受人尊敬的、同行评议的科学和临床杂志上。一旦该研究得到临床和科学验证,我们将进行用户和HCI研究,以了解如何将其应用于实际的临床环境。2018年,我们将工作范围扩大到计算机辅助诊断的广阔领域,并将其扩展到临床任务预测。

在2016年底,我们发表了一项回顾性研究,经过训练的用于评估糖尿病视网膜病变迹象的视网膜基底部图像的模型,其表现与美国医学委员会认证的眼科医生水平相当,甚至略好于后者。

2018年,我们能够证明,通过由视网膜专家标记的图像进行培训,这个模型的表现已经可与视网膜专家相媲美。后来,我们发表了一项评估,显示眼科医生和这种ML模型相结合远比他们单独做决定更准确。我们与Verily的同事合作,在印度的Aravind眼科医院和泰国卫生部下属的Rajavithi医院等10多个地点部署了这种糖尿病视网膜病变检测系统。

在一项医学和眼科专家认为相当了不起的研究中,我们还发表了一项关于机器学习模型的研究,该模型可以通过视网膜图像评估心血管病变的风险。这为确认一种新的、非侵入性的生物标志物提供了早期希望,这种标志物可以帮助临床医生更好地了解患者的健康状况。

我们今年也继续关注病理学,展示如何使用ML提高前列腺癌的分级、利用深度学习检测转移性乳腺癌,并开发出增强现实显微镜原型,它可以通过来自计算机视觉模型的视觉信息帮助病理学家和其他科学家。

在过去的四年里,我们进行了一项重大研究,即使用深度学习和电子健康记录来进行临床相关预测。2018年,我们与芝加哥大学、加州大学旧金山分校(UCSF)和斯坦福大学合作,在《自然数字医学》(Nature Digital Medicine)杂志上发表了一篇论文,展示了ML模型如何被用于去识别电子病历,并对各种临床相关任务做出比当前临床最佳实践更高的准确性预测。

作为这项工作的一部分,我们开发了一些工具,使创建这些模型变得非常容易,即使是在截然不同的任务和底层EHR数据集上也是如此。我们拥有与快速医疗互操作性资源(FHIR)标准相关的开源软件,该标准是我们在这项工作中开发的,目的是使处理医疗数据变得更容易、更标准化。我们还改进了基于深度学习的变量调用技术DeepVariant的准确性、速度和实用性。该团队与合作伙伴共同努力,最近在《自然生物技术》杂志上发表了一篇同行评议的论文。

研究推广

我们以许多不同的方式与外部研究团体进行互动,包括教师参与和学生支持。我们很荣幸在本学年接待了数百名本科生、硕士生和博士生作为实习生,并为北美、欧洲和中东的学生提供持续多年的博士研究生奖学金。除了财政支持,每个奖学金接受者被分配一个或多个谷歌研究人员作为导师,我们汇集在Google Ph.D. Fellowship Summit上,他们在谷歌接触最先进的研究,并有机会与来自世界各地的研究人员交流。

作为这个项目的补充,Google AI Residency培训项目允许想要参与进行深度学习研究的人,在谷歌与研究人员一起工作,并接受他们的指导。如今,这个项目已进入第三个年头,学员们被安插在其全球办公室的各个团队中,从事机器学习、感知、算法和优化、语言理解、医疗保健等领域的研究。由于该项目第四年的申请刚刚结束,我们很高兴看到新一代学院将在2019年参与新的研究中来。

每年,我们也通过Google Faculty Research Awards计划支持一些教师和学生的研究项目。在2018年,我们也继续在谷歌特定地区举办教师和研究生研讨会在,包括在印度班加罗尔举行的AI/ML Research and Practice研讨会,在苏黎世举办Algorithms & Optimization Workshop研讨会,在森尼维尔举行的ML医疗应用研讨会,在剑桥举行Fairness and Bias in ML研讨会等。

我们认为,公开地为更广泛的研究社区作出贡献是支持健康和富有成效的研究生态系统的关键部分。除了我们的开源和数据集发布之外,我们的许多研究都在顶级会议场所和期刊上公开发表,我们还积极参与各项活动,并赞助各种不同学科的会议,比如ICLR 2018、NAACL 2018、ICML 2018、CVPR 2018、NeurIPS 2018、ECCV 2018和EMNLP 2018等。2018年,谷歌还参与了ASPLOS、HPCA、ICSE、IEEE Security & Privacy、OSDI、SIGCOMM等多个会议。

新的地方,新的面孔

在2018年,我们非常高兴地欢迎许多具有广泛背景的新人加入我们的研究机构。我们宣布了我们在非洲的第一个AI研究办公室,它位于加纳的阿克拉。我们扩大了在巴黎、东京和阿姆斯特丹的AI研究设施,并在普林斯顿开设了研究实验室。我们继续在世界各地的办公室招聘优秀人才。
展望2019年

这篇博客文章只是总结了2018年所做研究的一小部分。当我们回首2018年,我们为自己所取得成就的广度和深度感到兴奋和自豪!在2019年,我们期待着对谷歌的方向和产品,以及更广泛的研究和工程社区产生更大的影响!


文章来源: 网易智能