首页 » 智能 » 光子AI协处理芯片为传统加速计算卡装上“涡轮增压”_光学_光子

光子AI协处理芯片为传统加速计算卡装上“涡轮增压”_光学_光子

南宫静远 2024-12-17 10:01:23 0

扫一扫用手机浏览

文章目录 [+]

▲光子算数CEO白冰

一、光学芯片工程化进展,已至测试阶段

光子AI协处理芯片为传统加速计算卡装上“涡轮增压”_光学_光子 智能

与常规数字芯片不同,白冰所创立的光子算数,采纳了其余一条技能路线——光子芯片。

白冰说,用光学做打算处于比较早期的阶段。
目前光子算数团队已将其做成测试级的产品,并于今年放至做事器厂商客户处进行测试。

作为一家初创公司,光子算数和高校、研究所等几家单位共同事情。
其早期样片集成了几百个不同的光学单元,比如有电光转换,把电旗子暗记加载到光载波,然后通过传播到片内的光学组合,完成一些特定的函数变换。
跟传统的打算特色不同,它不是面向加减乘除,而是直接完成一个繁芜的变革过程。

这被称为可编程光子阵列芯片FPPGA(Field Programmable Photonic Gate Arrays),个中的光学单元可以通过电控,掌握重新的连接组合办法,实现不同的繁芜函数。
也便是说,FPPGA具有可重构的特性。

光学芯片加速的不是完全算法,和所有的数字芯片一样,光学芯片面向繁芜函数做加速打算,其打算工具是特定算子。
光的劣势在于不是特殊灵巧,但是在某些函数上有上风。

全体系统是光电稠浊的,数据在光电两部分中完成一个流动,实行一个完全的打算过程,由光学、电学芯片构成光电稠浊AI打算硬件系统。

光电稠浊系统仍要做到软硬协同,开拓适宜光学加速的算法,使得光电稠浊系统的硬件物理架构与算法的运算/访存特色相匹配。

从技能架构图可以看到,左边是电学部分,包含逻辑掌握、缓存等,以及专用的定制化IP。
考虑到与光学芯片匹配,这些IP与传统的数字IP不一样,须要定制化开拓;右边是光学模组,除了光学打算芯片外,还有一颗DFB激光器芯片,还有驱动、TIA以及小型的掌握、电源芯片等组件。

中间采取热插拔的办法,跟通信模块一样。
之以是选择这一办法,是由于光子算数团队考虑到光芯片、电芯片放到一起,可能卖不出去,由于很难拼得过GPU,考虑到其产品定位,因此做成插拔型。

光子算数与高校一起打造了面向做事器的光电稠浊AI加速打算卡,目前已完成一些定制化加速任务,包括机器学习推理、韶光序列剖析等特界说务。
白冰说,打算卡现在的性能可用,不过还比较初步,能做到36路1080P视频同步处理,功耗不到70W,算力资源相对有限,稠浊精度下峰值算力靠近20TOPS,光部分为低精度,电部分为高精度。

打算卡封装有光子协处理引擎模块,散热器、驱动、掌握器、TIA、一些打算掌握部分和赛灵思FPGA芯片,数据在光电之间形成循环流动。
光的定位是为电做协处理加速。

个中光子协处理引擎模块用的是两个QSFP28的光通信接口(每个都是100GB/s),光通信物理接口非常成熟,其光学带宽大约达200GB/s,范例功耗达7W,算力在1.2TOPS旁边。
该模块支持热插拔,不须要经由预调,内部封装了一些适宜于用光学做的分外的算子函数,比如随机投影、高维空间变换映射、压缩、小规模卷积、韶光序列等高算子。
现在该模块还比较初步,下一阶段,光子算数会进一步扩大其规模。

光子协处理引擎模块里面是两层构造,上面是掌握模组,其二级掌握缓存处理随时可以换,以适应下一步软件迭代;下面是光学运算模组,包含全体光学打算部分,个中集成了大量的光学单元,为了一些特定的函数,可以做低延时、低能耗的变换过程。

完通盘算过程是FPGA吸收的数据从电接口进来,经由驱动放大,驱动光芯片上的调优器,把旗子暗记再返到光上,经由片内传输完成变换,然后再变成电旗子暗记返回。

目前光子算数已将一些光电稠浊AI加速打算做事器供应给机房和IDC试用与测试,接口是标准的PCIe口。
此外,其做事器也与一些国产操作系统和CPU厂商做了适配。

白冰坦言,该做事器目前性能仍较有限,70W运行功耗下,大概能做三四十路的视频同步处理,跟纯电比没有那么强。

下一步,他们考虑将光的部分带宽扩大,进一步提升算力。
当前在光通信领域,100GB/s是主流,200GB/s比较少,400GB/s、800GB/s紧张有一些大厂在做,目前还没推出产品。
只管做这块本钱较高,但这是比较切实可行的已有方案。

二、热插拔式模块,可由大厂软件调用

白冰谈到的第二个话题,光学芯片的产品定位,即这个东西做完之后,卖给谁?

如果想在云端替代NVIDIA GPU,是非常困难的,其核心竞争力在于它的软件工具。
把电和光放到一张卡上,要开拓完全的软件套件,事情量非常大且代价很高。
当然云端加速打算卡也可以做定制化,但定制化在云真个适用空间会相对有限,这是做云端AI芯片的所有公司共同面临的窘境。

光子算数为什么选择做成热插拔办法?实际上,这是将适宜用光学做的特定算子封装到光学模块里,通过热插拔接口和海内大厂的加速打算卡插在一起,这种接口制都是成熟的,开拓者利用大厂的软件工具,即可通过API调用光子算数的模块内嵌特定算子。
面向详细运用,开拓者通过大厂软件工具,开拓由光子算数的光学算子与大厂原有的电学算子组成的光电稠浊算法整体。

光子算数对自己的市场定位是供应传统加速打算卡的升级组件,使传统加速打算卡提升性能、降落能耗、降落本钱,不受制于软件工具。
消费者依然买大厂的卡和工具,如需升级,即可选用光子算数的模块。
白冰提了一个形象的比喻,用一张传统卡加上光子协处理引擎模块的效果,相称于给汽车配了一个涡轮增压。

三、研发履行路径:算法先行,硬件跟进

白冰谈到关于研发路线。
他们研发的内容是系统性工程,相较于设计新型的光学打算单元,难度是可以战胜的。

更多的,其行业特色特殊像光模块,它的行业拓展是小芯片、大组装,其封装和组装本钱占全体的70%,是一个别系工程。
更紧张的,要做软硬系统的匹配,同时硬件要做到光与电的协同,个中包括一些算子、标定的东西并涉及到一些关键技能。

最核心的,要做适宜光学做的算法,算法先行,硬件跟进。
目前市情上的传统算法不太适宜光学芯片去实行,打算机发展这么多年,一贯是软和硬耦合在一起发展,“硬”一贯是数字芯片,以是算法里嵌了很多数字芯片的基因,用光学硬件很难加速。

因此首先要开拓适宜光学做的算子,给光学算子配一些数字算子,去组成完全的算法,然后来剖析光电稠浊算法的运算和访存特色,再之后再设计硬件,如何给算法加速。

“这是我们做的核心关键思路,这也是为什么很多公司目前做不出来的缘故原由。
”白冰说。

四、适配光学打算的算法示例

那么,哪些算法适宜用光学打算去处理呢?

白冰举了些例子,比如光学随机投影,用光学芯片物理实现无需繁芜精确掌握,加工容差大、同等性哀求低。
该方案有循环的效果,不是卷积,而是对数据直接进行维度的变革,直接能做非线性的处理,比如升维或压缩这样。

例如对平面上的目标进行分类,用一条曲线可以把它分开,曲线是比较繁芜的,算法里面可能对应很多层,在处理之前,可以将数据扔到光学芯片里,做一个升维操作,数据从二维空间变到三维、四维空间,多了Z轴。
这个投影用光学做的话没有代价,在电里面用一个线性的平面就可以把两类目标区隔开,可以把十层的网络压缩到两层,这样便是投影变换,光学芯片会有内部的架构。

光子算数把光学函数和数字算子组成了关键的光电稠浊算法,经考试测验,至少可以跟市情上主流的算法做更新。

比如基于光学随机投影做目标识别迁移学习时,后半部分进行重新演习,算法演习量还是很大的。
实在可以不走绿色部分,直接在蓝色块用光学芯片做预处理,后面加大略的线性层,就可以完成任务,做一个维度的升维变革。

再比如演习时,常日会用BP,连续求导会有梯度消逝或爆炸的问题,其余演习量也比较大。
用光学做,可以直接将输出层Loss通过光学随机投影直接回传到不同的权重层,每层并行独立更新权重,这样可以做并行演习处理并且避免了连续求导的过程。

只管这一领域相对早期的,紧张面向特定化的市场,但可以看到,它已在某些领域有些成熟化的产品涌现和得到运用。
由于当前光学芯片紧张作为协处理器,光子算数也在持续地与做电学芯片的大厂积极沟通互助。

标签:

相关文章

脑控武器的制胜之道_兵器_技巧

层出不穷的新技能、新观点为战役发展供应无限技能可能,同时也加速武器装备的更新和战役形态的转变。只有节制科技进步趋势, 并对战役内在...

智能 2024-12-22 阅读0 评论0

USB接口常见问题_装备_主机

关于USB接口的一些常见问题,知道还是比较有用的,拿来和大家分享:1. USB 1.1和USB 2.0有何差异?USB 2.0问世...

智能 2024-12-22 阅读0 评论0

人工耳蜗的工作事理_暗记_旗子

·首先,声音被耳朵后面的一个小麦克风拾取,麦克风然后把声波变成电旗子暗记。·这些旗子暗记通过电线传播到植入物的另一个侧面,头部阁下...

智能 2024-12-22 阅读0 评论0