当前位置:首页 > 企业新闻

专访Novumind吴韧:一发入魂的NovuTensor芯片是如何炼成的

九州彩票|以及C API。同时,NovuMind搭建了大型分布式深度自学训练平台NovuStar,可以获得专业的人工智能训练模型。其“模型芯片”的定制化和简化的全堆栈解决方案可以将Novu张量限制在从嵌入式到云的各种应用中。

今年11月,NovuMind入选第19届EE时代硅60榜单。这份榜单被誉为全球新兴半导体公司的金榜,也被称为“全球最被忽视的60家半导体公司”。其中15家公司瞄准AI领域,较2017年的6家公司快速增长150%。

官网平台

这无疑指出,AI的全球浪潮不仅热度没有波动,更显示了市场和技术的发展趋势。既然AI芯片公司这么多,NovuMind和它的NovuTensor芯片有什么区别?(微信官方账号:)我和NovuMind创始人兼CEO吴仁博士进行了详细的讨论。

真正的异构计算,而不是回到普通的道路上“人工智能的关键能力本质上只是少数,例如看到、听到和感知其他信号的能力。”在和我们的交流中,吴仁首先解释了AI计算的解释。

“只有将其中一项功能放入解决方案中是可能的,但在通用性方面并没有降低太多。人脸识别、车辆识别等。

适用于不同的型号,但它只是芯片的型号。”他认为,在最终应用中,平台不是一个准确的想法。NovuMind执着于最彻底的优化和最低的能耗比,平台意味着性能降低。

在这种持续的阻力下,NovuMind自由选择了一种几乎和其他芯片厂商不同的方法:放弃传统的二维矩阵运算。矩阵乘法是目前大多数AI加速器最重要的目标算法,但NovuMind指出AI计算的关键点不是矩阵,而是卷积,即三维张量的计算。如果为了综合考虑而拒绝放弃二维甚至一维的计算方法,将会制约把计算性能推向最大化的可能性。“行业内有专业化,一些计算显然能让CPU做到。

为什么要闲置深度自学的计算能力?”NovuTensor芯片架构反对原3*3张量的计算,只处理三维深度神经网络的计算,可以最有效地在局部继续进行分步计算。由于该架构一次只需要取一个原始张量,只需要取子张量,因此大大降低了内存获取成本,同时也提高了能耗比。神经网络等人工智能的性能远高于包括传统GPU架构在内的其他稀有架构。除了独特的架构设计,NovuTensor在动态半精度浮点数方面也是独一无二的,比标准半精度浮点数有更大的精度损失,但是可以大大节省硬件开销。

与传统的混合计算类似,NovuMind也考虑到人工智能计算对计算精度没有一定的容差,所以在一些非关键的地方用它来降低精度也会导致最终精度的损失。吴仁特别解释说,传统的混合计算是整数计算的部分计算和浮点计算的部分计算。

九州彩票

整数计算和浮点计算一般都是以独立国家的计算单位为基础,所以当浮点计算扩展时,整数计算单位是空闲的。这种闲置在一定程度上造成了芯片面积的浪费,而且闲置的晶体管几乎没有静态漏电,所以对功耗也有影响。

“NovuTensor的动态半精度浮点数计算的优点是可以用同一组计算单元同时进行不同精度的计算,是统一的计算,所以在硬件和功耗效率上更高效。”2018年10月,NovuTensor芯片的设计获得美国专利。该专利充分展示了NovuMind在芯片设计领域的独特架构设计。

计算力暴力美学NovuTensor的主要攻击市场是边缘服务器/边缘强计算力,通过收购自动驾驶、机器人、智能相机等形式的嵌入式模块和边缘计算盒,以及计算力市场需求强的消费类电子和智能家居(如AR/VR应用等),可以获得计算力对立。)。一方面,这种边缘对计算能力的排斥度很高,一定和云服务器(10TOPS)的计算能力差不多;另一方面,它在处理延迟和可靠性方面具有很高的拒绝能力。

目前市场上主流的解决方案是GPU。但由于其自然的架构,其效率并不低,在较低的延迟下,其计算能力只能超过峰值计算能力的十分之一。NovuTensor独特的架构在对延迟有严格要求的场景中有着独特的优势,比如边缘计算。

众所周知,NovuTensor对推理小说的半精确计算可以在ResNet-18中构建一个1000fps以上的帧父比。与市面上最新的边缘计算GPU模块的半精度计算相比,帧亲和度提高了2倍以上,甚至比GPU的INT8计算性能提高了1.5倍,能耗比提高了4倍(半精度)/3倍(INT8)。因为很多都是用在深度较深的神经网络模型中,所以NovuMind也训练了ResNet-70,更适合硬件加速。

它的精度和ResNet-101差不多,但是硬件执行效率比ResNet-101高很多。NovuTensor继续进行半精度计算,ResNet-70的帧亲和度也可以超过450fps。

与GPU相比,帧亲和度也超过2倍(半精度)/1.5倍(INT8),能耗比提高4倍(半精度)/3倍(INT8)。在这一代28nm的NovuTensor芯片成功流式传输后,下一代芯片将需要利用架构的优势,通过设计递归地转移到更多的市场。据吴仁介绍,NovuMind已经在规划下一代芯片。16nm芯片的预期规格是26W功耗和240Tops计算能力,能耗在9 TOPS/W左右;7nm芯片功耗0.15W,计算能力4Tops,能耗比27Tops左右.据报道,能源消耗率的大幅提高不仅归功于更先进设备的半导体技术,还归功于在建筑中适当应用的目标优化。

240T芯片主要针对服务器等市场对计算能力要求较高的场景,因此在内存访问和计算流水线上进行了适当的优化,而4T芯片主要针对超低功耗市场,针对超低功耗场景的算法也进行了适当的优化。大小切换NovuTensor目前的定位是计算边缘端的视野。据了解,目前云计算大芯片、边缘计算小芯片的公司完全被忽略。

这种市场现象我们已经习惯很久了,但还是很奇怪。设计小芯片和大芯片的技术重点和问题有什么区别?关于这一点,吴仁首先解释说,他对边缘计算的解释是指一系列必须在数据末端计算,且由于延迟、可靠性、安全性等市场需求而无法向云端扩散的应用。这不仅包括终端(如手机、智能音箱)的小芯片,还包括无人驾驶、智能零售等领域的高计算能力的大芯片。

无论是大芯片还是小芯片,在边缘计算方面,都拒绝做低吞吐量、极低延迟的工作。“从大芯片和小芯片来看,技术差距并不是不可逾越的。更大的区别只在于商业模式。

九州彩票平台

”他回应说,因为小芯片在成本上比较脆弱,预计整个系统的芯片数量会越来越少,所以芯片一般不会做成SoC,包括很多模块,AI只是其中一个特点。所以最合理的商业模式是AI芯片公司从SoC厂商那里获取ip,由SoC厂商自己构建成SoC。而大芯片市场几乎可以拒绝接受独立国家的AI芯片,因为市场对性能的需求超过了对成本的关注。

对于大芯片市场,销售芯片或芯片模块是一个合理的业务 所以我们很少看到公司购买大芯片和小芯片,因为更合理的模式是在小芯片市场购买大芯片,获得IP授权服务。吴仁向我们透露,NovuTensor可以有多种形式。未来,NovuMind可以获得多个NovuTensor芯片的加速卡,以满足数据中心服务器的计算能力市场需求。

九州彩票官网

在移动通信、物联网等功耗拒绝度较高的市场,NovuMind也获得了NovuTensor核心IP许可的“轻量版”,从而加快了智能物联网的人工智能计算速度。后记:由于芯片背后的物理世界依然存在,作者对芯片计算出的清晰的物理过程非常奇怪。按照作者的解释,芯片计算的本质是将信息由无序变为有序,这是一个消耗能量的非自发熵减过程。

在谈话的最后,作者问了吴仁博士以下几个问题:芯片以视在电阻电路的形式浪费了多少能量,实际用于信息处理的有效能量有多少?多少能量相当于完成的信息,在加工过程中有多少能量被缩水丢弃?芯片处理信息的能效和大脑有什么差距,未来的神经模拟芯片会怎么样?吴仁和身边的牛人争论后很快恢复过来,详细说明了芯片计算中的具体情况。他首先回应说,目前基于晶体管的计算距离信息熵减半的能量上限还很远。

理论上,传输/计算1比特信息所需的能量为kTln2,在常温下约为10-21焦耳,而实际芯片晶体管中一次乘法(归一化为1比特)所需的能量约为10-14焦耳,比上限低7个数量级。存储器访问数据传输所需的能量被归一化为1比特,约为10-11焦耳,比上限低10个数量级。这样,即使非常简单的乘法计算也能得到结果,目前必须使用的能量比理论上限低7~10个数量级。

如果是复杂的算法,能耗不会有理论上限那么高。“特别是目前基于神经网络的人工智能,其特点是计算简单(比如一个基本的ResNet-18必须计算出约1010个算符的个数),所以我们估计计算出的能量比熵减所需的能量低20个数量级左右。

”对于Novumind涉及的AI芯片领域,他并没有回避缺点。“从另一个角度来说,在整个计算系统中,内存访问消耗的能量大约是计算的1000倍,这就是我们优化硬件架构的原因。我希望将尽可能多的数据返回到芯片,以增加内存访问。”综上所述,距离信息熵减半的能耗上限还很远,人体芯片技术还有相当大的变革空间,所以不存在车祸。

后来,吴仁解释了神经模拟芯片的问题。由于用于非冯诺依曼架构,神经模拟芯片可以增加内存访问,提高能耗率。

然而,人脑的工作机制在科学界仍知之甚少,神经模拟芯片仍处于更可行的阶段。目前,简单神经模拟网络的训练仍然非常困难,一些简单的任务无法完成。“预计未来5~10年,传统AI芯片和神经模拟芯片将是一种有序的关系。神经模拟芯片可以在相对简单且必须快速响应的超低功率终端中计算和处理。

有些计算是传统AI芯片不会做的。”吴仁最后总结道。允许禁止发表的原创文章。

以下是发布通知。_九州彩票。

本文来源:九州彩票官网-www.kuntalenergy.com