您现在的位置是:首页 > 科技网站首页科技

智能手机时代更快的视频识别

  • 科技
  • 2020-01-13 11:52:20

机器学习的一个分支被称为深度学习,帮助计算机在像阅读医学扫描这样定义明确的视觉任务上超越人类,但随着技术扩展到解释视频和现实世界事件,模型越来越大,计算强度也越来越大。

据估计,训练视频识别模型比训练图像分类模型需要多50倍的数据和8倍的处理能力。这是一个问题,因为对训练深度学习模型的处理能力的需求继续呈指数增长,对人工智能巨大碳足迹的担忧也在增加。在低功耗移动设备上运行大型视频识别模型(许多人工智能应用都在那里)也仍然是一个挑战。

麻省理工学院电机工程与计算机科学系(EECS)助理教授宋汉正通过设计更高效的深度学习模型来解决这个问题。在国际计算机视觉大会上,韩世同、麻省理工学院研究生纪琳和麻省理工-IBM Watson AI实验室研究员庄干在论文中概述了一种缩小视频识别模型的方法,以加快智能手机和其他移动设备的训练和提高运行时性能。他们的方法使模型缩小到六分之一的大小成为可能,方法是将最先进模型中的1.5亿个参数缩小到2500万个参数。

韩正说:“我们的目标是让任何拥有低功耗设备的人都能获得AI。“要做到这一点,我们需要设计高效的人工智能模型,这些模型使用更少的能量,并且能够在边缘设备上平稳运行,而在这些设备上,那么多的人工智能正在移动。”

相机和视频编辑软件的成本下降,以及新视频流媒体平台的兴起,让互联网充斥着新的内容。每小时,仅YouTube上传3万小时的新视频。研究人员说,对内容进行更有效编目的工具可以帮助观众和广告商更快地找到视频。这些工具还将帮助医院和养老院等机构在本地运行AI应用程序,而不是在云中运行,以保持敏感数据的私密性和安全性。

基本的图像和视频识别模型是神经网络,它是松散的模型,大脑如何处理信息。无论是数字照片还是视频图像序列,神经网络都在像素中寻找模式,并对他们所看到的东西建立起越来越抽象的表示。有了足够的例子,神经网络“学习”来识别人、物体以及它们之间的关系。

目前,顶级视频识别模型使用三维卷积来编码图像序列中的时间流逝,从而创建更大、更计算密集的模型。为了减少所涉及的计算,韩和他的同事设计了一个他们称为时间移位模块的操作,它将选定的视频帧的特征映射转移到相邻的帧。通过混合过去、现在和未来的空间表示,模型获得了一种时间流逝的感觉,而没有显式地表示它。

其结果是:在识别某物-某物视频数据集中的动作方面,该模型优于同行,在最近的公共排名中,该模型在版本1和版本2中获得了第一名。一个在线版本的移位模块也足够灵活,可以实时读取运动。在最近的一个演示中,林,一个博士。在EECS的学生展示了一台安装在摄像机上的单板计算机如何能够立即对手势进行分类,其能量足以为自行车灯供电。

通常情况下,在一台只有一个图形处理器的机器上训练如此强大的模型大约需要两天的时间。但研究人员设法借用了美国能源部峰会超级计算机的时间,该超级计算机目前在地球上排名最快。随着峰会的额外火力,研究人员表明,使用1,536个图形处理器,模型可以在短短14分钟内训练,接近其理论极限。他们说,这比3D最先进的模型快三倍。

IBM Research主管达里奥·吉尔(Dario Gil)在最近由MIT-IBM Watson AI实验室主办的AI Research Week上的开场白中强调了这项工作。

他稍后说:“对大型人工智能培训工作的计算要求每3.5个月翻一番。“我们继续推进技术极限的能力将取决于这样的策略,即将高效率的算法与强大的机器相匹配。”

Top