【AI芯片】为什么说要重视神经网络加速器、eFPGA更适用于AI、AI芯片的新动向 2018-08-08

自从以深度学习为代表的神经网络算法的精度大大提升以后,人工智能开始终于又再次火了起来,且有席卷全球之势。根据BBC预测,到2020年,人工智能总体市场将会高达1190亿元的规模,年平均复合增长率也将达到19.7%。庞大的市场潜力就吸引了众多的芯片、算法和应用厂商投身其中。


和过去的大多数应用不一样,人工智能在模型训练与推理中需要大量的计算。但受限于其算法和计算本身的特性,过往一直被广泛使用的传统计算芯片却无法满足这些需求,这就要求芯片厂商去为神经网络算法打造专用的芯片,尤其是推理端的芯片,也就是俗称的神经网络加速器。由于这个市场大家几乎都处于同一起跑线,所以很多新兴的和传统的芯片厂商在上面角逐,这就给开发者的芯片选择带来了困扰。


为此,我们从概念入手,为大家提供神经网络加速器的(NNA)基本面了解,还有一些厂商的应用范例,希望对大家有所启发。


神经网络加速器是趋势


在谈神经网络加速器之前,我们先了解一下什么是神经网络。


据维基百科,在机器学习和认知科学领域,人工神经网络是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具。


典型的神经网络具有以下三个部分:


1)结构(Architecture)


结构指定了网络中的变量和它们的拓扑关系。例如,神经网络中的变量可以是神经元连接的权重(weights)和神经元的激励值(activities of the neurons)。


2)激励函数(Activity Rule)


大部分神经网络模型具有一个短时间尺度的动力学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重(即该网络的参数)。


3)学习规则(Learning Rule)


学习规则指定了网络中的权重如何随着时间推进而调整。这一般被看做是一种长时间尺度的动力学规则。一般情况下,学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。例如,用于手写识别的一个神经网络,有一组输入神经元。输入神经元会被输入图像的数据所激发。在激励值被加权并通过一个函数(由网络的设计者确定)后,这些神经元的激励值被传递到其他神经元。这个过程不断重复,直到输出神经元被激发。最后,输出神经元的激励值决定了识别出来的是哪个字母。


人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。


拥有了这些神经网络之后,不但可以在云端架设服务器提供人工智能服务,且可以应用到智能手机、智能安防甚至智能汽车中实现图像识别、物体跟踪和语音识别等任务。但这些应用由于其应用场景的不同,还有算法特性的限制,这就要求他们提供低功耗、高效的,专门设计用来运行这些神经网络算法的芯片,我们就把他们称之为“神经网络加速器”。


再者,从目前看来,由于数据收集需要大量运算,因此各国的人工智算法仍然以云端发展为主。但考虑到信息安全、功耗以及对产品设计带来的挑战问题,以云为中心的架构方式并非在任何情况下都是最理想的解决方案,这就推动了对嵌入式人工智能的关注。那就对相关的芯片提出了更高的需求。


综上所述,推进神经网络加速器的落地势在必行。现在也有很多厂商正在针对不同的应用方向进行相关的研发工作,来自日本的索喜也是当中的一员。据了解,这家从专注于成像、网络和电脑计算技术三大板块的创新型企业正在推动AI在汽车方面的落地。


Socionext推NNA加速AI在边缘落地


Socionext(索喜科技)成立于2015年,由富士通株式会社与松下电器产业株式会社对两家公司的系统LSI业务进行合并,并接受日本政策投资银行的注资组成。公司为全球客户设计、开发和提供片上系统产品。公司日前宣布开发出一种新的神经网络加速器,用于优化边缘计算中的人工智能处理。


据介绍,Socionext目前提供的图像显示控制器“SC1810”内搭载有视觉处理器(VPU, Vision Processor Unit),与标准化组织Khronos Group开发的电脑视觉API“OpenVX”兼容。NNA的设计加入将扩展下一代图像显示控制器中VPU的性能。



Socionext方面表示,这个NNA采用量子化技术整合了公司的专有构架,减少了深度学习所需的参数和激活值。通过量子化技术能以较少的资源执行大量计算任务,大幅减少数据量,并显著降低系统存储器带宽。此外,新开发的片上存储器电路设计提高了深度学习所需的计算资源效率,能在非常小的封装中实现最佳性能。搭载有NNA的VPU结合了最新的技术,能在图像识别处理时比传统VPU快100倍。


据透露,新推出的NNA加速器提高了SC1810的VPU性能,能在汽车、数字标牌等多种应用中以高速度和低功耗完成图像识别处理和深度学习等的计算机视觉处理工作,能广泛应用在包括车载系统中的影像拍摄,以及基于行人、自行车等高精度物体识别的辅助驾驶以及自动泊车等方面。


另外,在电视和数字标牌等显示系统中,NNA可在超分辨率处理时增强图像识别,提高4K/8K屏幕高清晰度成像。这又是Socionext这个方案的另一应用方向。


Socionext预计于2018年第三季度开始提供NNA FPGA软件开发包。该软件开发包可支持TensorFlow学习环境,并提供专用的量子化技术库和从学习模型到推论处理用的数据转换工具。通过利用NNA优化后的学习环境,用户无需模型压缩或学习调谐(learning tuning)知识也能有效建立起他们自己的模型。今后Socionext还将计划通过支持各种深度学习框架来支持应用广泛的开发环境,让用户能简单建立深度学习的应用程序。


“我们将继续不断创新并开发出高效、高性能产品,以适应各种边缘计算环境中广泛的AI应用。”,Socionext中国区总裁铃木寿哉先生强调。


eFPGA更适用于AI ?

 来源:本文由公众号 半导体行业观察(ID:icbank)翻译自Achronix Semiconductor,作者 Alok Sanghavi ,谢谢。


人工智能(AI),特别是机器学习正在重塑世界的运作方式,也为工业和商业带来了无数的机会,但支持神经网络演进、多样性、训练和推理的最佳硬件架构尚未确定。本文针对这一领域,就嵌入式FPGA(eFPGA)的应用做一些探讨。


人工智能应用领域涵盖多个不同的市场,如自动驾驶、医疗诊断、家用电器、工业自动化、自适应网站、财务分析和网络基础设施。



这些应用(特别是在边缘实施时)需要高性能和低延迟才能成功响应实时变化。它们还需要低功耗,这就使能源密集型云解决方案无法使用。另外,更深层的要求是:这些嵌入式系统即使在没有网络连接到云的情况下,也总是处于开启状态并准备好进行响应。这些因素的加在一起,需要改变传统的硬件设计方式。


神经网络


许多算法可用于机器学习,但当今最成功的算法是深度神经网络。受生物处理过程和结构的启发,深度神经网络可以在前馈中采用10层或更多层。 每一层使用虚拟神经元对一组输入执行加权求和,然后将结果传递给下一层中的一个或多个神经元。


虽然有一种常见的核心方法来构建最深的神经网络,但目前还没有一种适用于深度学习的通用体系结构。 越来越多的深度学习应用将合并不基于模拟神经元的元素。 随着技术的不断发展,许多不同的架构将会出现。 就像有机大脑本身一样,可塑性是任何旨在将机器学习融入其产品设计的组织的主要要求。


训练和推理


有机大脑和人工智能之间的一个重要差异是,当训练好的网络被要求作出决定时,能够区分诸如训练和推理阶段等活动。 在2000~2010年,人们发现了有效的技术,可以一次对多个层次进行训练。这些技术依赖于通常由使用许多处理器来完成任务的服务器提供的巨大计算能力。训练过程在后台进行 – 通常在云端进行 – 不需要实时生成结果。


对于推理,计算需求低于训练,但通常需要在大多数现实世界的应用程序中提供实时响应。 高能效并行处理是推理系统的关键要求,因为许多系统不具备永久的外部电源。


通常,训练要求用于计算神经权重的浮点运算具有高精度,在大多数情况下,32位浮点已被证明是足够的精度需求。


对于推理来说,错误累积的可能性较小,通常,8位定点算术就足够了,对于某些连接,4位分辨率不会显著增加错误,系统将受益于重新配置数据路径的能力,以便他们能够以4位或8位的精度并行处理多个数据流。但是,设计人员希望保留在需要的地方结合高精度算术执行单元的能力。


显然,机器学习系统需要提供高性能和可塑性组合的硬件基质。


机器学习基质


许多处理结构可用于支持高性能机器学习,但是对于实时嵌入式系统来说,由于功耗和性能的原因,有些将在早期阶段被排除。


在2010~2015年期间,通用图形处理单元(GPGPU)成为训练和推理的热门选择。GPGPU提供数百个片上浮点单元,能够并行处理多个神经元的输入,比通用CPU集群的输入快得多。


然而,将GPGPU应用于深度学习架构存在一些缺点,这些设备主要用于加速2D和3D图形应用程序,这些应用程序使用均匀且可预测的内存访问模式,它们的结构支持算术运算密集型算法,这些算法可以很容易地在存储器中紧密地组合在一起,然后可以合理高效地处理卷积神经网络层。然而,其他类型的层可能会有麻烦,因为他们更加强调神经元之间的数据传输,从而使本地存储器架构效率降低,这样就降低了性能和能效。


具有定制逻辑和内存管理器的ASIC可以克服GPGPU在实施深度学习系统时存在的挑战和瓶颈。ASIC针对神经网络代码中遇到的不同访问模式进行调整的内存管理单元可以在提高整体速度方面做得更好。在诸如卷积神经网络(CNN)层的结构中,通过不将数据传入和传出本地或中间存储器的方式,可以实现节能。


与基于软件的处理器相比,ASIC的问题是其相对不灵活。我们可以对多种深度学习结构进行原型设计,然后选择基于硅集成的优化选项。一个特定的应用程序可能需要部署更多的卷积层或增加滤波器内核的复杂性来处理特定类型的输入,支持这种复杂性可能需要相对于其他硬件加速器而言增加数量庞大的滤波器内核处理器,这种结构可以通过ASIC实现,但它很可能不适合改变算法或相邻应用。


FPGA具有实现定制处理器和内存管理技术的诸多优势,它不需要将实现局限在特定的不变硬件结构。今天,许多FPGA架构提供了完全可定制的逻辑和数字信号处理(DSP)引擎的整合,可支持固定和浮点运算。在许多情况下,DSP引擎采用由8位或16位单元组成的构建块方法,这些方法可以将它们组合起来以支持更高精度的数据类型,通过在查找表(LUT)中实现的逻辑,可以适应低精度需求。


对逻辑阵列进行返工的能力使FPGA很容易调整并行处理器的结构和它们之间的路由,以满足应用的特定需求。如果训练结果指出如何扩展或重新布置图层以提高性能,那么其自由度仍然有调整空间。然而,可编程逻辑阵列相对低的效率可能意味着,当应用程序确实需要网络的某些高吞吐量专用功能时,用户必须在神经网络内不同层之间的性能共享功能上妥协。 一种方法是使用更小的ASIC来扩展FPGA,从而为常用功能(例如卷积内核或max-pooling计算)提供加速。


将FPGA架构嵌入片上系统(SoC)可以克服独立FPGA和ASIC的缺点,以及在它们之间传递数据的问题。 嵌入到ASIC中的一个或多个FPGA提供了动态调整神经网络性能的能力,提供了充分利用定制引擎所需的高数据传输带宽。


eFPGA横空出世


基于此,嵌入式FPGA应运而生。eFPGA概念第一次进入大众视野是在2014年,由UCLA的Cheng C. Wang,Fang-Li Yuan和Dejan Markovic等人在ISSCC发表的文章,“A Multi-Granularity FPGA With Hierarchical Interconnects for Efficient and Flexible Mobile Computing”。


这篇文章中,作者通过创造性地设计互联单元,一举解决了FPGA的功耗、性能和成本受到布线资源限制的问题,从而使得eFPGA集成到SoC中真正变为可能,而该论文也因其突出贡献获得了ISSCC Lewis Award。之后,Cheng C. Wang,Fang-Li Yuan和Dejan Markovic就利用该论文中的成果成立了Flex Logix,并推广eFPGA的概念,力争使其实现商用化。


到了2017年,eFPGA的概念已经获得了业界的广泛认可,而该领域的公司也在慢慢变多。到目前为止,业界主要供应商包括:Flex Logix、Achronix、Menta、QuickLogic、NanoXplore、Efinix和Adicsys。


以上这7家公司采采取3种商业模式和技术发展途径:Achronix同时提供FPGA和eFPGA;Menta、NanoXplore和Adicsys提供软IP eFPGA,Flex Logix全部是硬核eFPGA,QuickLogic采用了GloablFoundry工艺的硬IP,Efinix是硬IP技术。


据悉,中芯国际已经与QuickLogic合作,基于中芯国际40nm低漏电 (40LL) 工艺,推出了ArcticPro 嵌入式 FPGA技术,是业界首个在中芯国际40LL技术节点上提供的eFPGA IP。


与传统实现方案相比,eFPGA可以实现吞吐量和可重编程性之间的最佳平衡,并提供真实世界机器学习系统所需的性能。


片上集成FPGA模块的能力还通过以下方式节省了大量的硅片面积:


1)去除了与独立FPGA关联的耗电量大的I / O


2)将固定功能移至更高效的ASIC模块


3)将重复功能转换为自定义块。


机器学习中的eFPGA


由于AI/机器学习属于高端应用,其面临着算法的变化,是一个高计算需求的应用。


eFPGA是一种高度灵活的解决方案,可支持高性能机器学习应用程序所需的数据吞吐量。 不同的架构为设计人员提供了按照应用程序的要求混合和匹配eFPGA功能的能力。 一些核心功能,包括基于四输入LUT的逻辑,用于寄存器文件和类似用途的小型面向逻辑的存储器(LRAM),较大的块RAM(BRAM)以及可配置的DSP模块。


核心功能还可以通过定制模块进行增强,这些定制模块提供了更多专用功能,这些功能在可编程逻辑中是硅密集型的,例如为流水线访问优化的三态内容寻址存储器,超宽多路复用器和存储器模块。


通过可嵌入架构,SoC中的定制内核可以访问可编程架构,而无需牺牲片外访问的能耗和性能,无需FPGA架构周围的可编程I / O缓冲器,因此,解决方案内的整个裸片面积就会减少。 此外,该架构的模块化特性使得将该技术移植到各种工艺技术中变得很轻松,即使是新兴的7nm节点也没问题。


这些功能是为嵌入式系统提供实时AI加速的最佳起点,这些嵌入式系统涵盖从消费类电子电器到高级机器人和自动驾驶汽车。


机器学习技术代表了嵌入式系统的新领域,实时人工智能将扩大各种应用,但只有在能够以经济高效的方式执行时才能实现市场化量产。诸如多核CPU、GPGPU和独立FPGA之类的现有解决方案可用于支持高级AI算法,如深度学习,但它们无法满足开发人员随着机器学习体系结构发展而增加的硬件需求。


AI需要对数据和性能、内存延迟以及吞吐量进行仔细的平衡,这需要基于将尽可能多的功能引入ASIC或SoC的方法。 但是单芯片器件需要可塑性来处理机器学习项目中不可避免的结构变化。eFPGA技术则为市场所需的定制逻辑提供了灵活性和支持能力的完美整合。


eFPGA在AI应用中的挑战


eFPGA有诸多优点,但作为一种新型技术,其在具体应用中,同样面临着一些挑战,特别是对于AI而言,人工智能本身就是新兴应用,它们组合在一起,在实践当中自然会遇到一些难题。


比如,可靠性和良率问题,工程师在这方面有担忧,纯逻辑制程在这方面的优势还需要进一步观察;测试也是个问题,客户需要用户笔记来帮助设置、调试FPGA设计,当然,eFPGA在这方面是有先天优势的,可以测完再配置为需要的文件;另外还有时序问题,集成硬核很容易,但是时钟同步很难,因为不同于硅SoC的时序是不变的,eFPGA的时序是变化的,如何匹配是个问题。


AI芯片的新动向

 张健 半导体行业观察 

在人工智能(AI)领域,由于具有先天技术和应用优势,英伟达和谷歌几乎占据了AI处理器领域80%的市场份额,其他厂商,如英特尔、特斯拉、ARM、IBM以及Cadence等,也在人工智能处理器领域占有一席之地。最近几年,我国国内也涌现出了一批AI芯片公司,如地平线、深鉴科技、中科寒武纪等。

 

从应用场景看,AI芯片主要有两类,一是部署在以数据中心为代表的云端,其特点是高性能,功耗随之也偏高;另一个是部署在消费级和物联网的终端,其最大特点就是低功耗。

 

目前,AI芯片的大规模应用场景主要还是在云端。在云端,互联网巨头已经成为了事实上的生态主导者,因为云计算本来就是巨头的战场,现在所有开源AI框架也都是这些巨头发布的。在这样一个生态已经固化的环境中,留给创业公司的空间实际已经消失。

 

而在终端上,由于还没有一统天下的事实标准,芯片厂商可以八仙过海各显神通。目前,AI芯片在终端的应用场景主要还是手机,各大手机处理器厂商都在打AI牌,生怕错过了热点。

 

而随着5G和物联网的成熟,广阔的市场空间,为终端侧的AI芯片应用提供了巨大的机遇,而由于物联网终端数量巨大,应用场景繁多,而所有终端几乎都有一个共同的需求和特点,那就是低功耗,从而使其能长时间的稳定工作,不需要人为干预和维护,以降低运营维护成本。

 

云端AI芯片已经被各大巨头把控,而终端侧又有着巨大的发展空间,这使得产学研各界的众多企业和科研机构在最近两年纷纷投入人力和财力,进行低功耗AI芯片的研发,以期在竞争中占得先机。

 

VLSI 2018上的中国风


前些天,在美国檀香山召开的2018 国际超大规模集成电路研讨会(2018 Symposia on VLSI Technology and Circuits,简称 VLSI)上,我国清华大学Thinker团队发表了两款极低功耗AI 芯片(Thinker-II 和 Thinker-S)的相关论文,以及一种支持多种稀疏度网络和线上可调节功能的人工神经网络处理器STICKER。

 

之所以推出以上3款AI芯片,主要基于以下行业背景和需求:深度学习的突破性发展带动了机器视觉、语音识别以及自然语言处理等领域的进步,然而,由于深度神经网络巨大的存储开销和计算需求,功耗成为 Deploy AI Everywhere 的主要障碍,人工智能算法在移动设备、可穿戴设备和 IoT 设备中的广泛应用受到了制约。

 

为克服上述瓶颈,清华大学 Thinker 团队对神经网络低位宽量化方法、计算架构和电路实现进行了系统研究,提出了支持低位宽网络高能效计算的可重构架构,设计了神经网络通用计算芯片Thinker-II和语音识别芯片Thinker-S。Thinker-II 芯片运行在 200MHz 时,其功耗仅为10mW;Thinker-S芯片的最低功耗为141微瓦,其峰值能效达到90TOPs/W。这两款芯片有望在电池供电设备和自供能IoT设备中广泛应用。

 

Thinker-S


Thinker-S中设计了一种基于二值卷积神经网络和用户自适应的语音识别框架,同时利用语音信号处理的特点,提出了时域数据复用、近似计算和权值规整化等优化技术,大幅度优化了神经网络推理计算。Thinker-S 芯片采用 28nm 工艺,单次推理计算中每个神经元上消耗的能量最低仅为 2.46 皮焦。

 

图:Thinker-S 芯片架构

 

Thinker-Ⅱ


该芯片中设计了两种二值/三值卷积优化计算方法及硬件架构,大幅降低了算法复杂度、有效去除了冗余计算。此外,针对由稀疏化带来的负载不均衡问题,设计了层次化均衡调度机制,通过软硬件协同的两级任务调度,有效提升了资源利用率。Thinker-II 芯片采用 28nm 工艺,通过架构和电路级重构,支持神经网络通用计算。

 

图:Thinker-II 芯片架构

 

STICKER神经网络加速器


通过动态配置人工智能芯片的运算和存储电路,实现了对不同稀疏度神经网络的自适应处理,大幅提升了人工智能加速芯片的能量效率。该论文作为人工智能处理器分会场的首篇论文,得到了本届VLSI技术委员会的高度认可,一同入选的论文还包含了IBM, Intel, Renesas等公司的相关工作。

 

图:STICKER神经网络加速器硬件架构

 

据悉,STICKER是世界首款全面支持不同稀疏程度网络,且同时支持片上网络参数微调的神经网络加速芯片。通过片上自适应编码器、多模态计算单元以及多组相连存储架构技术,实现了针对不同稀疏程度神经网络的动态高效处理,大幅提升能量效率,并减少芯片面积。针对传统神经网络加速器无法片上调整网络参数以适应物联网应用场景中目标及环境多变的问题,首次使用了片上微调稀疏神经网络参数的技术,以极低的开销实现片上神经网络参数的自适应调整。相比于传统加速器,该工作极限能效高达62.1 TOPS/W(为目前有报道的8bit人工智能处理器的最高值)。

 

图:Sticker芯片照片

  

KAIST的DNPU


韩国科学技术院KAIST的Dongjoo Shin等人在ISSCC 2017上提出了一个针对CNN和RNN结构可配置的加速器单元DNPU,除了包含一个RISC核之外,还包括了一个针对卷积层操作的计算阵列CP和一个针对全连接层RNN-LSTM操作的计算阵列FRP,DNPU支持CNN和RNN结构,能效比高达8.1TOPS/W。该芯片采用了65nm CMOS工艺。

  

ENVISION


比利时鲁汶大学的Bert Moons等在2017年IEEE ISSCC上提出了能效比高达10.0TOPs/W的、针对卷积神经网络加速的芯片ENVISION,该芯片采用28nm FD-SOI技术,包括一个16位的RISC处理器核,1D-SIMD处理单元进行ReLU和Pooling操作,2D-SIMD MAC阵列处理卷积层和全连接层的操作,还有128KB的片上存储器。

 


SCALLDEEP


普渡大学的Venkataramani S等人在计算机体系结构顶级会议ISCA 2017上提出了针对大规模神经网络训练的人工智能处理器SCALLDEEP。

 

该论文针对深度神经网络的训练部分进行针对性优化,提出了一个可扩展服务器架构,且深入分析了深度神经网络中卷积层,采样层,全连接层等在计算密集度和访存密集度方面的不同,设计了两种处理器core架构,计算密集型的任务放在了comHeavy核中,包含大量的2D乘法器和累加器部件,而对于访存密集型任务则放在了memHeavy核中,包含大量SPM存储器和tracker同步单元,既可以作为存储单元使用,又可以进行计算操作,包括ReLU,tanh等。

 

论文作者针对深度神经网络设计了编译器,完成网络映射和代码生成,同时设计了设计空间探索的模拟器平台,可以进行性能和功耗的评估,性能则得益于时钟精确级的模拟器,功耗评估则从DC中提取模块的网表级的参数模型。该芯片采用了Intel 14nm工艺进行了综合和性能评估,峰值能效比高达485.7GOPS/W。 

 

Myriad X


英特尔为了加强在人工智能芯片领域的实力,收购了机器视觉公司Movidius。

 

Movidius在2017年推出了Myriad X,这是一款视觉处理器(VPU,visionprocessing unit),是一款低功耗的SoC,用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和VR / AR头盔。


 

Myriad X是全球第一个配备专用神经网络计算引擎的片上系统芯片(SoC),用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,Myriad X架构能够为基于深度学习的神经网络推理提供1TOPS的计算性能。

 

百花齐放


一些传统AI服务厂商将自己的服务进行垂直拓展,比如的自然语音处理厂商云知声从自己的传统语音业务出发,开发了UniOne语音AI芯片,用于物联网IoT设备。

 

相对于语音市场,安防更是一个AI芯片扎堆的大产业,如果可以将自己的芯片置入摄像头,是一个不错的场景,也是很好的生意。包括云天励飞、海康威视等厂商都在大力开发安防领域的AI嵌入式芯片,而且已经完成了一定的商业化部署。


AI芯片发展趋势


在计算机体系结构顶级会议ISSCC 2018,“Digital Systems: Digital Architectures and Systems”分论坛主席Byeong-GyuNam对AI芯片,特别是深度学习芯片的发展趋势做了概括,去年,大多数论文都在讨论卷积神经网络的实现问题,今年则更加关注两个问题:一,如果更高效地实现卷积神经网络,特别是针对手持终端等设备;二,关于全连接的非卷积神经网络,如RNN和LSTM。

 

为了获得更高的能效比,越来越多的研究者把精力放在了低精度神经网络的设计和实现上,如1bit的神经网络。这些新技术使深度学习加速器的能效比从去年的几十TOPS/W提升到了今年的上百TOPS/W。有些研究者也对数字+模拟的混合信号处理实现方案进行了研究。对数据存取具有较高要求的全连接网络,有些研究者则借助3D封装技术来获得更好的性能。

 

总之,AI芯片在终端侧的发展潜力巨大,且应用场景众多,品类也多,这就更适合众多初创的、中小规模AI芯片企业的胃口。相信随着5G和物联网的大面积铺开,低功耗AI芯片将是未来的主要发展方向,只要相关标准能够确定,则商机无限。


聊一聊深度学习在半导体行业的应用

来源:内容来自「ASML」,谢谢。 


1

摩尔定律即将终结?

近年来摩尔定律增长的脚步放缓,关于摩尔定律的种种猜测甚嚣尘上。但半导体行业人,仍然对此持乐观态度:持续性的创新仍在发生,目前行业生态系统中的每个分支都在努力实现更多突破和改进。例如,可制造性设计(DFM)始终在优化,除此之外,更强大的计算能力无疑成为行业发展的重中之重。

 

过去,半导体行业以两派划分,物联网或消费类电子设备,以及高性能计算。追求低功耗曾在两派之间占据主导地位,但随后计算能力的进一步提升则成为很重要的一个方向。因此,图形处理器(Graphic Processing Unit)和大规模并行处理的体系结构将成为高性能计算的发展方向。当然,这不是一个突然的转变,而是随着时间推移而发生变化,但这已经是一个必然趋势。

 

提到图形处理技术,人工智能的问题不可回避。如今人工智能、机器学习和深度学习是业界风向标。但这究竟是炒作还是已然悄悄影响行业发展?



2

当人工智能遇到半导体

可以肯定,目前的人工智能根本不是炒作,而被深度学习所驱动的。深度学习是机器学习的一个分支,而机器学习是AI的一个分支。可以预见,深度学习包含了较多的非连续性、颠覆性的技术与重大的机遇。但它不像1980年代的Lisp机器热潮。因为Lisp编程语言并不适于一般编程人群。深度学习却颠覆了编程,与往常的编程 ——即编程者写代码并将一组输入转化成一组输出——不一样的是:深度学习会消化许多输入与输出的示例,并学习该模式下的匹配。从本质上讲,深度学习的输出是一个程序,它将输入转换为类似的输出,以此模仿训练数据集(training data set)。与之前的机器学习不同,深度学习解决了让软件工程师曾无法解决的编程问题,深度学习可以实现之前无法实现的软件应用程序。



毫无疑问的是,

深度学习开始影响半导体芯片行业。


以ASML-Brion著名的OPC(光学邻近效应修正)示例来说:使用深度学习来加速OPC或ILT(反演光刻技术)的初始嵌入,运行时间将会减少一半。众所周知,运行时间是OPC中最重要的问题之一。其运作原理是使用深度学习的模式匹配能力,来创建一个比现有的替代方案更好的初始嵌入。这样做可以大大减少完成掩膜版(mask)设计所需的优化迭代次数,从而大幅度降低整体的运行时间。 ASML-Brion论文描述了运行OPC / ILT代码以用来获取一堆输入模式(所需的晶圆形状),并继而产生一堆输出模式(生成这些晶圆形状所需的掩膜形状)。 现在,把这些输入和输出的搭配设置成在深度学习的模式下,即会生成一个程序,该程序将会把类似的输入(其他但仍是所需的晶圆形状)转换成类似的输出(掩膜形状)。

 

值得注意的是,深度学习是一种统计方法。


以ImageNet Competition和其他类似的事件举例,你可以在结果中获得95%的准确度,并且其中输出的掩膜形状将会生产出所需的晶圆形状,同时也对制造的变化有着适应力。当然,在半导体制造中,95%的精准度不算是一个完美数字。我们需要至少7-sigma的准确度。 这就是ASML-Brion的智慧所在,我们使用深度学习来加速计算。 在深度学习推理引擎生产出输出掩膜形状之后,这些掩膜形状在传统OPC/ILT程序中被用作为初始嵌入。加入了初始嵌入后的传统程序会比没有任何设置、或只有晶圆形状(乘以4倍放大系数)、或甚至用一些SRAF生成(SRAF generation)来的运行速度更快。



3

技术浪潮将引领半导体去向何方

自动缺陷分类(Automatic defect classification)作为一个检查掩膜和晶圆重要的领域,将普遍应用人工智能相关技术,包括大数据。晶圆厂(fabs)中蕴含大量的数据,而机器学习所擅长的,正是去关联大量数据和事件,总结其相关性。

 

半导体产业链中,光掩膜领域广泛融入深度学习,整个市场呈现增长态势。复合年均增长率(Compound annual growth rate)在过去三年中一直保持在4%,并预计这个增长将继续一段时间。

 

过去很长一段时间,技术前沿的掩膜领域,每个设计可能会包含多达100个的掩膜, 但技术前沿的掩膜则非常鲜有。由于前沿的掩膜技术非常昂贵,只有少数公司能够负担。无论是从盈利还是生产数量的角度来看,掩膜市场都主要是被非前沿技术的掩膜所统领。然而,当前沿的技术最终突破高容量节点(high volume node),未来的掩膜市场将实现飞跃。

 

然而,前沿技术的掩膜仍然昂贵,目前的掩膜领域在行业的发展还未达到一个最活跃的顶峰。深度学习和通过深度学习所完成的计算给予了这个市场很大的助动,同样,在这个市场中,还有极紫外光光刻(EUV)所带来的影响。在37亿美元的掩膜销售额中,很难看到极紫外光(EUV)的比重,是因为极紫外光(EUV)掩膜更加昂贵。可以预期,随着极紫外光(EUV)掩膜数量的增加,整个掩膜市场也将再次飞跃。

4

EUV即将迎来量产,是高峰还是挑战?

EUV光刻技术正在接近量产阶段,但仍存在一些挑战。掩膜行业也在为EUV做好准备。如今,多光束机器可以在掩膜版上绘制任何形状,而在过去,我们只能绘制直线形状。多光束的使用,突破了直线形状的局限,也带来了OPC和ILT的进一步突破。然后EUV带来的技术革新也绝不仅仅是输出曲线形状,由于它的写入性质,对于非常密集和小型设计(如EUV掩膜)也十分适用。因此,EUV掩膜,及纳米压印母版,都需要多光束技术。

 

从eBeam Initiative的调查中可以看到,周转时间对掩膜制造来说是一个巨大的挑战。 EUV掩膜则更加挑战,因为7nm及以下节点的单次曝光,致使EUV可能具有较少的SRAF甚至可能没有SRAF。

 

掩膜过程校正(Mask Process Correction – MPC)是OPC或ILT的掩膜版本。为了印制出想要的掩膜,需要仔细操作形状。我们来做个假设,如果要在掩膜上绘制一个40nm宽、200nm高的矩形,却没有使用制作掩膜的合理抗蚀剂,可能最终我们能得到36nm宽、但是160纳米长的形状。而在晶圆加工的过程中, 1nm的差异都至关重要,因此掩膜非常重要。

 

掩膜的进步是应对下一节点挑战的利器,不断利用新兴技术手段,也将不断满足精度准度及周转时间的要求。



工业互联网操作系统




产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业工业互联网操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


长按上方二维码关注微信公众号: AI-CPS



本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com



标签: