如果说年3月份AlphaGo与李世石的那场人机大战只在科技界和围棋界产生较大影响的话,那么年5月其与排名第一的世界围棋冠军柯洁的对战则将人工智能技术推向了公众视野。阿尔法狗(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序,由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发,其主要工作原理是“深度学习”。
其实早在年,深度学习技术就已经在学术界引起了广泛地讨论。在这一年的ImageNet大规模视觉识别挑战赛ILSVRC中,采用5个卷积层和3个全连接层的神经网络结构AlexNet,取得了top-5(15.3%)的历史最佳错误率,而第二名的成绩仅为26.2%。从此以后,就出现了层数更多、结构更为复杂的神经网络结构,如ResNet、GoogleNet、VGGNet和MaskRCNN等,还有去年比较火的生成式对抗网络GAN。
不论是赢得视觉识别挑战赛的AlexNet,还是击败围棋冠军柯洁的AlphaGo,它们的实现都离不开现代信息技术的核心——处理器,不论这个处理器是传统的CPU,还是GPU,还是新兴的专用加速部件NNPU(NNPU是NeuralNetworkProcessingUnit的简称)。
在计算机体系结构国际顶级会议ISCA上有个关于体系结构的小型研讨会,名人堂成员UCSB的谢源教授就对年以来在ISCA收录的论文进行了总结,专用加速部件相关的论文收录是在年开始,而在年达到了顶峰,超过了处理器、存储器以及互联结构等三大传统领域。而在这一年,来自中国科学院计算技术研究所的陈云霁、陈天石研究员课题组提交的《一种神经网络指令集》论文,更是ISCA最高得分论文。
在具体介绍AI芯片国内外之前,看到这里有部分读者或许会产生这样的疑惑:这不都是在说神经网络和深度学习吗?那么我觉得有必要对人工智能和神经网络的概念进行阐述,特别是年工信部发布的《促进新一代人工智能产业发展三年行动计划(-年)》中,对发展目标的描述很容易让人觉得人工智能就是神经网络,AI芯片就是神经网络芯片。
人工智能整体核心基础能力显著增强,智能传感器技术产品实现突破,设计、代工、封测技术达到国际水平,神经网络芯片实现量产并在重点领域实现规模化应用,开源开发平台初步具备支撑产业快速发展的能力。
其实则不然。人工智能是一个很老很老的概念,而神经网络只不过是人工智能范畴的一个子集。早在年,被誉为“人工智能之父”的图灵奖得主约翰·麦卡锡就这样定义人工智能:创造智能机器的科学与工程。而在年,ArthurSamuel给出了人工智能的一个子领域机器学习的定义,即“计算机有能力去学习,而不是通过预先准确实现的代码”,这也是目前公认的对机器学习最早最准确的定义。而我们日常所熟知的神经网络、深度学习等都属于机器学习的范畴,都是受大脑机理启发而发展得来的。另外一个比较重要的研究领域就是脉冲神经网络,国内具有代表的单位和企业是清华大学类脑计算研究中心和上海西井科技等。
好了,现在终于可以介绍AI芯片国内外的发展现状了,当然这些都是我个人的一点观察和愚见,管窥之见权当抛砖引玉。
国外技术寡头,优势明显
由于具有得天独厚的技术和应用优势,英伟达和谷歌几乎占据了人工智能处理领域80%的市场份额,而且在谷歌宣布其CloudTPU开放服务和英伟达推出自动驾驶处理器Xavier之后,这一份额占比在年有望进一步扩大。其他厂商,如英特尔、特斯拉、ARM、IBM以及Cadence等,也在人工智能处理器领域占有一席之地。
当然,上述这些公司的专注领域却不尽相同。比如英伟达主要专注于GPU和无人驾驶领域,而谷歌则主要针对云端市场,英特尔则主要面向计算机视觉,Cadence则以提供加速神经网络计算相关IP为主。如果说前述这些公司还主要偏向处理器设计等硬件领域,那么ARM公司则主要偏向软件,致力于针对机器学习和人工智能提供高效算法库。
注:上述表格中所给为截止到年各研制单位公开可查的最新数据。
1、独占鳌头——英伟达
在人工智能领域,英伟达可以说是目前涉及面最广、市场份额最大的公司,旗下产品线遍布自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多领域。其针对自动驾驶汽车领域的全新人工智能超级计算机Xavier,用NVIDIA首席执行官黄仁勋的话来说就是“这是我所知道的SoC领域非常了不起的尝试,我们长期以来一直致力于开发芯片。”
Xavier是一款完整的片上系统(SoC),集成了被称为Volta的全新GPU架构、定制8核CPU架构以及新的计算机视觉加速器。该处理器提供20TOPS(万亿次运算/秒)的高性能,而功耗仅为20瓦。单个Xavier人工智能处理器包含70亿个晶体管,采用最前沿的16nmFinFET加工技术进行制造,能够取代目前配置了两个移动SoC和两个独立GPU的DRIVEPX2,而功耗仅仅是它的一小部分。
而在年拉斯维加斯CES展会上,NVIDIA又推出了三款基于Xavier的人工智能处理器,包括一款专注于将增强现实(AR)技术应用于汽车的产品、一款进一步简化车内人工智能助手构建和部署的DRIVEIX和一款对其现有自主出租车大脑——Pegasus的修改,进一步扩大自己的优势。
2、产学研的集大成者——谷歌
如果你只是知道谷歌的AlphaGo、无人驾驶和TPU等这些人工智能相关的产品,那么你还应该知道这些产品背后的技术大牛们:谷歌传奇芯片工程师JeffDean、谷歌云计算团队首席科学家、斯坦福大学AI实验室主管李飞飞、Alphabet董事长JohnHennessy和谷歌杰出工程师DavidPatterson。
时至今日,摩尔定律遇到了技术和经济上的双重瓶颈,处理器性能的增长速度越来越慢,然而社会对于计算能力的需求增速却并未减缓,甚至在移动应用、大数据、人工智能等新的应用兴起后,对于计算能力、计算功耗和计算成本等提出了新的要求。与完全依赖于通用CPU及其编程模型的传统软件编写模式不同,异构计算的整个系统包含了多种基于特定领域架构(Domain-SpecificArchitecture,DSA)设计的处理单元,每一个DSA处理单元都有负责的独特领域并针对该领域做优化,当计算机系统遇到相关计算时便由相应的DSA处理器去负责。而谷歌就是异构计算的践行者,TPU就是异构计算在人工智能应用的一个很好例子。
年发布的第二代TPU芯片,不仅加深了人工智能在学习和推理方面的能力,而且谷歌是认真地要将它推向市场。根据谷歌的内部测试,第二代芯片针对机器学习的训练速度能比现在市场上的图形芯片(GPU)节省一半时间;第二代TPU包括了四个芯片,每秒可处理万亿次浮点运算;如果将64个TPU组合到一起,升级为所谓的TPUPods,则可提供大约万亿次浮点运算能力。
3、计算机视觉领域的搅局者——英特尔
英特尔作为世界上最大的计算机芯片制造商,近年来一直在寻求计算机以外的市场,其中人工智能芯片争夺成为英特尔的核心战略之一。为了加强在人工智能芯片领域的实力,不仅以亿美元收购FPGA生产商Altera公司,还以亿美元收购自动驾驶技术公司Mobileye,以及机器视觉公司Movidius和为自动驾驶汽车芯片提供安全工具的公司Yogitech,背后凸显这家在PC时代处于核心位置的巨头面向未来的积极转型。
MyriadX就是英特尔子公司Movidius在年推出的视觉处理器(VPU,visionprocessingunit),这是一款低功耗的系统芯片(SoC),用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和VR/AR头盔。MyriadX是全球第一个配备专用神经网络计算引擎的片上系统芯片(SoC),用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,MyriadX架构能够为基于深度学习的神经网络推理提供1TOPS的计算性能。
4、执“能效比”之牛耳——学术界
除了工业界和厂商在人工智能领域不断推出新产品之外,学术界也在持续推进人工智能芯片新技术的发展。
比利时鲁汶大学的BertMoons等在年顶级会议IEEEISSCC上面提出了能效比高达10.0TOPs/W的针对卷积神经网络加速的芯片ENVISION,该芯片采用28nmFD-SOI技术。该芯片包括一个16位的RISC处理器核,1D-SIMD处理单元进行ReLU和Pooling操作,2D-SIMDMAC阵列处理卷积层和全连接层的操作,还有KB的片上存储器。
韩国科学技术院KAIST的DongjooShin等人在ISSCC上提出了一个针对CNN和RNN结构可配置的加速器单元DNPU,除了包含一个RISC核之外,还包括了一个针对卷积层操作的计算阵列CP和一个针对全连接层RNN-LSTM操作的计算阵列FRP,相比于鲁汶大学的Envision,DNPU支持CNN和RNN结构,能效比高达8.1TOPS/W。该芯片采用了65nmCMOS工艺。
相比较于鲁汶大学和韩国科学技术院都针对神经网络推理部分的计算操作来说,普渡大学的VenkataramaniS等人在计算机体系结构顶级会议ISCA上提出了针对大规模神经网络训练的人工智能处理器SCALLDEEP。
该论文针对深度神经网络的训练部分进行针对性优化,提出了一个可扩展服务器架构,且深入分析了深度神经网络中卷积层,采样层,全连接层等在计算密集度和访存密集度方面的不同,设计了两种处理器core架构,计算密集型的任务放在了
推荐文章
热点文章