OPPO首个自研芯片NPU 藏着的计算摄影秘密

今天的第三届OPPO未来科技大会(OPPO INNO DAY 2021)上,OPPO芯片产品高级总监姜波揭秘了其历时近两年研发的首个自研芯片马里亚纳 MariSilicon X。马里亚纳 MariSilicon X是一个影像专用NPU(神经网络处理器),采用台积电6nm工艺,AI算力高达18TOPS,比苹果最新的A15 15.8TOPS的AI性能还高,同时,MariSilicon X能效比达到了11.6TOPS/W。

OPPO芯片产品高级总监姜波在发布会上展示马里亚纳 MariSilicon X芯片

作为一家手机终端公司,OPPO竟然在首个自研芯片上就挑战业内顶尖的6nm工艺,并且NPU的性能和能效比也达到了业界领先水平,这不禁让人好奇,OPPO自研芯片的决心从何而来?

从最直观的产品的层面看,马里亚纳 MariSilicon X将搭载在OPPO明年第一季度发布的Find系列旗舰手机上,会为消费者带来突破性的视频拍摄功能。

马里亚纳 MariSilicon X影像专用NPU

从技术层面细细解读,将会发现马里亚纳 MariSilicon X背后,藏着OPPO的计算摄影秘密,以及这家志在探索未来的企业对新十年技术发展趋势的判断。

为什么是影像专用NPU?

当市场的竞争更加激烈,智能手机的创新越来越难之时,全球手机出货量前五的手机厂商们都希望通过自研芯片,用更好的软硬协同,实现差异化的功能和体验,获得消费者的青睐。

差异化竞争的焦点,是消费者最容易感知的影像功能。自2018年开始,手机行业对于AI影像功能的关注只增不减。2020腾讯手机行业洞察白皮书指出,消费者对摄像头、电池的关注度显著提升,其中摄像头的关注度增长率仅次于操作系统。

手机影像系统是一个很长的链条,包括前端传感器、镜头、马达,承载图像处理的ISP芯片,以及后端标定和调优等过程。手机巨头们在整个影像系统上都争相布局,比如,OPPO过去十年,在定制图像传感器、摄像头模组、镜头方面有大量积累,还基于通用SoC平台积累了许多AI算法。

“手机业界已经发现在AI算力的支持下,AI算法已经超越传统ISP算法的效果。因此,目前主流的趋势是用AI算法替代传统算法。”拥有十多年图像处理领域丰富经验的爱芯元智ISP负责人、系统架构师张兴对雷峰网说,“手机厂商已经在拍照中享受到了AI算法带来的好处,包括超级夜景、AI美颜等功能,从趋势来看未来几年,AI拍照最火的几个功能会从拍照推向视频。这就需要一颗高效的芯片,将AI算法和传统ISP进行更好结合。”

将算力、AI与拍照和摄影融合,都代表着手机行业一个重要的趋势——计算摄影。所谓的计算摄影,是利用数字计算而非传统的光学处理的图像。比如超级夜景功能,利用高算力以及AI降噪算法等,将拍摄的多张照片合成为同一张,输出一张明亮清晰的照片。

从谷歌、苹果,到OPPO,整个手机业界的领导者都在通过计算摄影不断突破手机摄影能力的上限。

不过,通用SoC并不能完全满足计算摄影的需求。OPPO芯片产品高级总监姜波指出,“我们的AI降噪算法在Find X3 Pro的芯片平台上,在功耗接近1.7瓦的时候,最多可以处理2帧图像,这意味着AI降噪只能应用到暗光拍照,没办法在最低要求是30fps的视频中应用。”

安谋科技高级产品经理柴卫华也说,“随着短视频的需求发展,手机也越来越重视视频拍摄的性能。要实时处理4K甚至8K视频的海量数据,呈现完美的影像效果,处理器性能、算法优异、存储带宽和与系统延迟都是挑战。”

通用SoC限制AI算法性能的同时,也限制了定制传感器和镜头性能的发挥。

原因主要有两方面,一方面,定制传感器的周期较短,但通用SoC的更新以年为周期,两者在时间上难以匹配。另一方面,采用定制传感器,整个图像处理链路需要进行优化增强,但定制传感器和通用SoC很难实现紧密耦合,也就难以发挥最大效益。

已经拥有定制传感器和AI算法积累的OPPO,想要进一步提升影像性能,在计算摄影将占主导地位的竞争中,自然需要一颗影像专用NPU帮助其实现影像链路的垂直整合,进一步实现突破。

“垂直整合最难的就是最开始对用户需求的判断,如果判断失误,会影响后续芯片设计以及所有的配合设计工作。”姜波说:“得益于OPPO在移动智能设备多年的经验,我们清楚知道消费者的真实需求。”

马里亚纳 MariSilicon X补足了OPPO在影像计算单元上的最后短板——缺乏可控的影像专用处理器。

之所以定位于影像专用,没有加入包括显示在内的更多功能,姜波说:“这是我们的首款自研芯片,要集中在价值最大的功能点上。”

计算摄影如何突破手机摄影极限?

芯片的定位明确之后,具体参数定义也极为关键。这其中有两大关键挑战,一个自研芯片能够带来的性能和体验提升,一定要优于通用SoC;另一个是手机整机的功耗控制。

要解决这两大挑战,就不得不自研这个NPU上的几大核心IP。姜波透露,“刚开始,我们也评估了一些可以购买的第三方IP,但最终发现没有一个NPU可以与OPPO的场景算法结合,达到最优能耗功率,因此选择了从头开始自研NPU。”

张兴也持同样的观点,“要充分发挥NPU算力与ISP结合的价值,需要在设计的最初就将两个IP结合起来设计。如果是买来的IP,两者结合实现好的功能难度很大,即便实现,也会有大量的功耗和芯片面积的浪费。”

因此,马里亚纳 MariSilicon X中的两大关键IP,MariNeuro AI计算单元和MariLumi影像处理单元均是OPPO自研,分别负责提供高AI算力和更好的影像处理性能,也是计算摄影的关键。

AI算力部分,马里亚纳 MariSilicon X的int8性能高达18 TOPS。之所以要定义一款在终端如此高性能的NPU,原因就是前面提到的马里亚纳 MariSilicon X要有足够的性能带来比通用SoC更好的性能和体验,特别是将AI融入视频拍摄中。

“在视频应用领域,效果稍微好的AI降噪算法,实时处理[email protected]视频就需要10TOPS以上的算力,目前这种应用方案还比较少。”亿智电子创始人兼CEO陈峰指出。

如果没有能耗约束,实现高AI性能并不难,但手机处理器的设计,难点在于能耗比。

要实现高能耗比,芯片制程的选择、架构的设计、性能与功耗的取舍等都非常重要。这也是马里亚纳 MariSilicon X虽然是OPPO的首个自研芯片,但是选择了台积电先进的6nm工艺的关键原因。要知道,设计的芯片工艺越先进,对设计团队的要求越高。如果第一次就想成功,也需要一些运气,而OPPO的马里亚纳 MariSilicon X首次流片就成功。

另外,NPU提升能效比还有一个瓶颈——内存墙。在AI芯片发展几年之后,业界都意识到,NPU数据搬运消耗的能耗远高于数据处理。为此,马里亚纳 MariSilicon X集成奢侈的双层存储,包括万亿比特/秒(Tb/s)级读写速度的内存子系统,以及8.5GB/s的独立DDR带宽的方式,为AI的高效运算提供充分的内存读写支持,在有效减少数据搬运的同时提升能效比。

最终,马里亚纳 MariSilicon X在实现18TOPS高算力的同时,拥有11.6TOPS/W的极致能效比表现,运行OPPO AI降噪模型的速度是达到Find X3 Pro(骁龙888)的20倍,能效达到40倍,在业界属于领先水平。

芯片行业有这样一句话,“算力代表一切。”

实现了高算力和极致能效比的兼顾,马里亚纳 X发挥自研MariNeuro和MariLumi联合设计的独特优势,最高支持人眼级别的20bit Ultra HDR,能覆盖100万:1的最大亮度范围,是目前行业主流HDR能力的4倍,比最新发布的旗舰通用SoC支持的18bit HDR更加极致。

传统来讲,HDR是在YUV里合成的,经过RGB和YUV的转换,会损失大量的图像信息。

马里亚纳 MariSilicon X帮助OPPO首次完成影像链路的垂直整合,就可以重塑转换链路,将处理节点前置在信息量100%的RAW域直接做实时计算,20bit RAW实时计算,能够带来画质的显著提升。

马里亚纳 MariSilicon X支持20bit HDR,高于最新旗舰SoC的18bit。通用SoC落后于马里亚纳 MariSilicon X的规格,是否会成为限制这款OPPO首个自研芯片发挥性能的瓶颈?姜波对雷峰网(公众号:雷峰网)解释,“由于马里亚纳 MariSilicon X是在手机SoC之前处理,我们的NPU处理完HDR、AI降噪等之后就不需要再进行相应处理,不会限制MariSiliconX性能的发挥。”

有了自研芯片,也能让OPPO充分发挥定制传感器的性能。马里亚纳 MariSilicon X充分发挥了RGBW的更强能力,通过双链路的设计和2x RAW计算,实现8.6 dB信噪比和1.7倍解析力提升。

“通过自研芯片和定制化传感器相互的化学反应和相互耦合,我们可以做到最大化发挥定制传感器的能力。”姜波指出。

对于计算摄影这个涵盖计算机图形学、计算机视觉和应用光学等多个学科领域的技术,OPPO的首款自研芯片能够基于算力,借助垂直整合,用计算摄影突破手机影像的极限。

自研芯片给OPPO手机带来的可能性

马里亚纳 MariSilicon X能够突破的极限,是让手机能够在弱光环境,用计算摄影实现4K+20bit RAW+AI+Ultra HDR夜景视频的新极限。

姜波解释,“之所以把视频拍摄限在4K30帧,也是出于功耗的考量。视频的实时处理特性,难度远大于照片的先拍后算。视频基础的要求是30帧/秒,意味着每一帧的处理要有大概33毫秒,要实现视频AI功能,必须在33毫秒内处理完成,性能和功耗的约束是关键。”

同时,手机系统层级,功耗的控制也非常重要。

“我们现在把整个影像链路中,最耗功耗的HDR、AI降噪等算法都在马里亚纳MariSilicon X上处理,SoC不需要再进行处理,所以是节省功耗的。”姜波解释,“OPPO有一个功耗及格线,不能增加整体功耗,这是基本原则思路。”

OPPO展示了一段暗光视频拍摄的视频,可以明显看到,搭载马里亚纳 MariSilicon X的测试平台在暗光环境中视频的细节更多,画面解析力更高。

未来,OPPO的自研芯片还能实现更多视频拍摄的AI功能。这是因为,马里亚纳MariSilicon X设计之初就将AI和图像处理进行了很好融合,相比传统的ISP有更高灵活性,还有更高性能,用计算摄影突破手机影像功能的极限,而无损计算也是计算影像的必然趋势。

另外,从OPPO自研芯片的命名马里亚纳来看,OPPO还会在自研芯片的道路上不断探索,马里亚纳 MariSilicon X只是OPPO自研芯片的开始,未来OPPO还可能推出更多自研芯片,给终端用户带来更多惊喜。

写在最后

OPPO自研芯片并不让人意外,让人有些意外的是,OPPO首款自研芯片就采用了台积电6nm工艺,首次流片就成功,定位影像专用的马里亚纳 X NPU在性能上兼顾了高性能和高能效。

当然,这是OPPO作为手机终端公司,在充分理解消费者需求,以及基于已有技术积累,对行业趋势判断,自研芯片的优势。

对于OPPO而言,虽然自研芯片一定会带来成本的增加,但OPPO更关注的是提升消费者体验,以及用计算摄影不断突破极限。对于消费者来说,在马里亚纳 MariSilicon X加持下,能够实现暗光视频拍摄突破的OPPO Find新旗舰,将会是一个非常值得关注产品。对于手机业界来说,OPPO硬实力的增加或许也会给行业的竞争带来更多压力,跟上无损计算摄影的趋势,也变得更加重要。


手机扫码阅读