gpu发展史简介 gpu性能指标详解

萤火2022-07-13 17:29:13情感1606

一、GPU:专用计算时代的“画师”

GPU的流处理器单元是NVIDIA对其统一架构GPU内通用标量着色器的命名。SP单元是全新的全能渲染单元,是继Pixel Pipelines(像素管线)和Vertex Pipelines(顶点管线)之后新一代的显卡渲染技术指标。SP单元既可以完成VS(Vertex Shader,顶点着色器)运算,也可以完成PS(Pixel Shader,像素着色器)运算,而且可以根据需要组成任意VS/PS比例,从而给开发者更广阔的发挥空间。流处理器单元首次出现于DirectX 10时代的G80核心的Nvidia GeForce 8800GTX显卡,是显卡发展史上一次重大的革新。之后AMD/ATI的显卡也引入了这一概念,但是流处理器在横向和纵向都不可类比,大量的流处理器是GPU性能强劲的必要非充分条件。纹理映射单元(TMU)作为GPU的部件,它能够对二进制图像旋转、缩放、扭曲,然后将其作为纹理放置到给定3D模型的任意平面,这个过程称为纹理映射。纹理映射单元不可简单跨平台横向比较,大量的纹理映射单元是GPU性能强劲的必要非充分条件。光栅化处理单元(ROPs)主要负责游戏中的光线和反射运算,兼顾AA、高分辨率、烟雾、火焰等效果。游戏里的抗锯齿和光影效果越厉害,对ROPs的性能要求就越高,否则可能导致帧数的急剧下降。NVIDIA的ROPs单元是和流处理器进行捆绑的,二者同比例增减。在AMD GPU中,ROPs单元和流处理器单元没有直接捆绑关系。

消费GPU的实时光线追踪在2018年由英伟达的“图灵”GPU首次引入,光追单元(RT Cores)在此过程中发挥着决定性的作用。图灵GPU的光追单元支持边界体积层次加速,实时阴影、环境光、照明和反射,光追单元和光栅单元可以协同工作,进一步提高帧数和阴影的真实感。光追单元在英伟达的RTX光线追踪技术、微软DXR API、英伟达Optix API和Vulkan光追API的支持下可以充分发挥性能。拥有68个光追单元的RTX2080Ti在光线处理性能上较无光追单元的GTX1080Ti强10倍。张量单元(Tensor Core)在2017年由英伟达的“伏特”GPU中被首次引入。张量单元主要用于实时深度学习,服务于人工智能,大型矩阵运算和深度学习超级采样(DLSS),可以带来惊人的游戏和专业图像显示,同时提供基于云系统的快速人工智能。

GPU的API(Application Programming Interface)应用程序接口发挥着连接应用程序和显卡驱动的桥梁作用。不过随着系统优化的深入,API也可以直接统筹管理高级语言、显卡驱动和底层汇编语言。3D API能够让编程人员所设计的3D软件只需调动其API内的程序,让API自动和硬件的驱动程序沟通,启动3D芯片内强大的3D图形处理功能,从而大幅地提高3D程序的设计效率。同样的,GPU厂家也可以根据API标准来设计GPU芯片,以达到在API调用硬件资源时的最优化,获得更好的性能。3D API可以实现不同厂家的硬件、软件最大范围兼容。如果没有API,那么开发人员必须对不同的硬件进行一对一的编码,这样会带来大量的软件适配问题和编码成本。目前GPU API可以分为2大阵营和若干其他类。2大阵营分别是微软的DirectX标准和KhronosGroup标准,其他类包括苹果的Metal API、AMD的Mantle(地幔)API、英特尔的One API等。

微软DirectX和Khronos Group API组合对比DirectX是Direct eXtension的简称,作为一种API,是由微软公司创建的多媒体编程接口。DirectX可以让以Windows为平台的游戏或多媒体程序获得更高的执行效率,加强3D图形和声音效果,并提供设计人员一个共同的硬件驱动标准,让游戏开发者不必为每一品牌的硬件来写不同的驱动程序,也降低用户安装及设置硬件的复杂度。DirectX已被广泛使用于Windows操作系统和Xbox主机的电子游戏开发。OpenGL是Open Graphics Library的简称,是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API),相比DirectX更加开放。这个接口由近350个不同的函数调用组成,用来绘制从简单的二维图形到复杂的三维景象。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。正是由于OpenGL的开放,所以它可以被运行在Windows、MacOS、Linux、安卓、iOS等多个操作系统上,学习门槛也比DirectX更低。但是,效率低是OpenGL的主要缺点。

GPU根据接入方式可以划分为独立GPU和集成GPU。独立GPU一般封装在独立的显卡电路板上,拥有独立显存,而集成GPU常和CPU共用一个Die,共享系统内存。GPU根据接入方式可以划分为独立GPU和集成GPU。独立GPU一般封装在独立的显卡电路板上,拥有独立显存,而集成GPU常和CPU共用一个Die,共享系统内存。

GPU显存是用来存储显卡芯片处理过或者即将提取的渲染数据,是GPU正常运作不可或缺的核心部件之一。GPU的显存可以分为独立显存和集成显存两种。目前,独立显存主要采用GDDR3、GDDR5、GDDR5X、GDDR6,而集成显存主要采用DDR3、DDR4。服务器GPU偏好使用Chiplet形式的HBM显存,最大化吞吐量。集成显存受制于64位操作系统的限制,即便组成2通道甚至4通道,与独立显存的带宽仍有相当差距。通常这也造成了独立GPU的性能强于集成GPU。

GPU对比CPU:从芯片设计思路看,CPU是以低延迟为导向的计算单元,通常由专为串行处理而优化的几个核心组成,而GPU是以吞吐量为导向的计算单元,由数以千计的更小、更高效的核心组成,专为并行多任务设计。CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU,但在线程数,寄存器数和SIMD(单指令多数据流)方面GPU远强于CPU。微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存,只有少部分的晶体管完成实际的运算工作,功能模块很多,擅长分支预测等复杂操作。GPU的流处理器和显存控制器占据了绝大部分晶体管,而控制器相对简单,擅长对大量数据进行简单操作,拥有远胜于CPU的强大浮点计算能力。

GPU与ASIC和FPGA的对比:数据、算力和算法是AI三大要素,CPU配合加速芯片的模式成为典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、ASIC三类。GPU用于大量重复计算,由数以千计的更小、更高效的核心组成大规模并行计算架构,配备GPU的服务器可取代数百台通用CPU服务器来处理HPC和AI业务。FPGA是一种半定制芯片,灵活性强集成度高,但运算量小,量产成本高,适用于算法更新频繁或市场规模小的专用领域。ASIC专用性强,市场需求量大的专用领域,但开发周期较长且难度极高。在AI训练阶段需要大量数据运算,GPU预计占64%左右市场份额,FPGA和ASIC分别为22%和14%。推理阶段无需大量数据运算,GPU将占据42%左右市场,FPGA和ASIC分别为34%和24%。

在PC诞生之初,并不存在GPU的概念,所有的图形和多媒体运算都由CPU负责。但是由于X86 CPU的暂存器数量有限,适合串行计算而不适合并行计算,虽然以英特尔为代表的厂商多次推出SSE等多媒体拓展指令集试图弥补CPU的缺陷,但是仅仅在指令集方面的改进不能起到根本效果,所以诞生了图形加速器作为CPU的辅助运算单元。GPU的发展史概括说来就是NVIDIA、AMD(ATI)的发展史,在此过程中曾经的GPU巨头Imagination、3dfx、东芝等纷纷被后辈超越。如今独立显卡领域主要由英伟达和AMD控制,而集成显卡领域由英特尔和AMD控制。

英伟达的GPU架构自2008年以来几乎一直保持着每2年一次大更新的节奏,带来更多更新的运算单元和更好的API适配性。在每次的大换代之间,不乏有一次的小升级,如采用开普勒二代微架构的GK110核心相较于采用初代开普勒微架构的GK104核心,升级了显卡智能动态超频技术,CUDA运算能力提升至3.5代,极致流式多处理器(SMX)的浮点运算单元提升8倍,加入了Hyper-Q技术提高GPU的利用率并削减了闲置,更新了网格管理单元(Grid Management Unit),为动态并行技术提供了灵活性。英伟达GPU微架构的持续更新,使英伟达GPU的能效提升了数十倍,占领了独立显卡技术的制高点。

图形API在GPU的运算过程中发挥着连接高级语言、显卡驱动乃至底层汇编语言的作用,充当GPU运行和开发的“桥梁”和“翻译官”。微软DirectX标准可以划分为显示部份、声音部份、输入部分和网络部分,其中与GPU具有最直接关系的是显示部分。显示部份可分为DirectDraw和Direct3D等标准,前者主要负责2D图像加速,后者主要负责3D效果显示。从1995年发布的初代DirectX 1.0开始微软的DirectX已经更新到了DirectX 12。在此过程中,DirectX不断完善对各类GPU的兼容,增加开发人员的权限,提高GPU的显示质量和运行帧数。DirectX一般和Windows操作系统同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。

GPU和CPU都是以先进制程为导向的数字芯片。先进制程可以在控制发热和电能消耗的同时,在有限的Die中放入尽可能多的晶体管,提高GPU的性能和能效。NVIDIA的GPU从2008年GT200系列的65纳米制程历经12年逐步升级到了RTX3000系列的7/8纳米制程,在整个过程中,晶体管数量提升了20多倍,逐步确立了在独立GPU的市场龙头地位。同时在整个过程中,NVIDIA一直坚持不采用IDM的模式,而是让台积电负责GPU的制造,自生专注于芯片设计,充分发挥比较优势。

2008-2020英伟达GPU主要制程和晶体管数进化2008-2020英伟达GPU主要制程和晶体管数进化

根据前12年的GPU发展轨迹来看,GPU微架构的升级趋势可以简要地概括为”更多”、”更专”、”更智能”。“更多”是指晶体管数量和运算单元的增加,其中包括流处理器单元、纹理单元、光栅单元等数量上升。“更专”是指除了常规的计算单元,GPU还会增加新的运算单元。例如,英伟达的图灵架构相较于帕斯卡架构新增加了光追单元和张量单元,分别处理实时光线追踪和人工智能运算。“更智能”是指GPU的AI运算能力上升。如第三代的张量单元相较于上代在吞吐量上提升了1倍。

综合分析微软的DirectX12、苹果的Metal2、Khronos Group的Vulkan API分别相较于前代DirectX11、Metal、OpenGL的升级,我们认为GPU API的升级趋势是提高GPU的运行效率、增加高级语言和显卡驱动之间的连接、优化视觉特效等。其中,提供更底层的支持:统筹高级语言、显卡驱动和底层语言是几乎所有API升级的主要方向。不过提供更底层的支持只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中,软件开发商需要比驱动程序和系统层更好地调度硬件资源,才能充分发挥底层API的效果。在显示质量方面,DirectX 12 Ultimate采用当下最新的图形硬件技术,支持光线追踪、网格着色器和可变速率着色,PC和Xbox共用同一个API,堪称次世代游戏的全新黄金标准。

GPU制造升级趋势:以先进制程为导向。GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意,因此单纯比较纳米数没有意义。按英特尔的观点,每平方毫米内的晶体管数(百万)更能衡量制程。据此,台积电和三星的7nm工艺更接近英特尔的10nm工艺。先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在GPU Die体积不变下实现更高的性能;先进制程可以提升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。先进制程的主要目的是降低平面结构带来的漏电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。

GPU制造升级趋势:Chiplet化。高位宽内存(HBM)是小芯片(Chiplet)在GPU中的常见应用。HBM是一种高速计算机存储器3D堆栈SDRAM接口。首款HBM于2013年推出,第二代HBM2已于2016年被JEDEC接受。目前,HBM主要应用在高端独立显卡和服务器显卡。HBM通过3D堆叠4个DRAM Die和1片逻辑Die组成一个Chiplet,其中每片DRAM具有2个128位通道,通过TSV(硅通孔)相连。所以,一片Chiplet总共8个128位通道,总位宽1024比特。每片Chiplet又与GPU封装在同一中介层(Interposer)连接GPU芯片。相比之下,GDDR5内存的总线宽度为32位,带有512位内存接口的显卡也只有16个通道,而且采用传统的FBGA封装。HBM与GDDR5相比,每GB的表面积减少94%,每GB/S带宽的能效提升2倍多。HBM支持最多每个Chiplet 4GB的存储,HBM2在HBM的基础上将每片Chiplet的最大容量提升至了8GB,显存主频提升1倍,同时总位宽保持不变。

GPU制造可分为IDM和Fab+Fabless。IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。Fabless只负责芯片的电路设计与销售,将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只负责制造,不负责芯片设计,可以同时为多家设计公司服务,但受制于公司间的竞争关系。台积电为Foundry的代表。目前英特尔GPU落后的主要原因是GPU制程的落后,根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制程的发展,芯片的制造成本和设计成本成指数级上升。同时,一条12英寸晶圆的生产线从建设到生产的周期约2年,投资至少30-50亿美元,资本支出占比80%,整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线作战。Fab+Fabless的模式通过充分发挥比较优势,分散了GPU设计和制造的风险,符合半导体分工的大趋势。

过去20多年里,GPU的基本需求源于视频加速,2D/3D游戏。随后GPU运用自身在并行处理和通用计算的优势,逐步开拓服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。虽然GPU无法离开CPU独立运作,但是在当前“云化”加速的时代,离开了GPU的CPU也无法胜任庞大的计算需求。所以GPU和CPU组成了异构运算体系,从底层经由系统软件和驱动层支持着上层的各种应用。GPU已经成为了专用计算时代的刚需。

二、GPU的全球格局

2020年全球GPU市场价值预计为254.1亿美元,预计2027年将达到1853.1亿美元,年平均增速为32.82%。按GPU的类型进行划分,市场可以细分为独立、集成和混合。2019年,集成GPU占GPU市场的主导地位,但是由于混合GPU同时拥有集成和专用GPU的能力,所以混合细分市场预计实现最高复合增长率。按GPU的设备进行划分,市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其他。就收入而言,智能手机细分市场占比最大,在未来也将保持这一趋势。但是,由于医疗等其他设备中对小型GPU的需求不断增加,预计未来的年复合增长率将最高。按GPU的行业进行划分,市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其他。由于GPU在设计和工程应用中的广泛使用,预计汽车细分行业的年复合增长率最高。按GPU的地理区域划分,市场可细分为北美、欧洲、亚太和其他地区。亚太地区在2019年主导了全球GPU市场,预计在整个预测期内将保持主导地位。全球GPU市场规模预测

全球GPU已经进入了寡头垄断的格局。在传统GPU市场中,排名前三的Nvidia、AMD、Intel的营收几乎可以代表整个GPU行业收入。英伟达的收入占56%、AMD占26%、英特尔占18%。在手机和平板GPU方面,联发科、海思麒麟、三星Exynos的GPU设计主要基于公版ARM MaliGPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采用自研GPU微架构。2019Q2,ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板的前五大GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额,高通Adreno占36%的份额,苹果占12%的份额。

1、英伟达

2、全球GPU先驱:AMD

3、英特尔:全球GPU追赶者

英特尔是全球最大的PC GPU供应商,也是PC和服务器显卡唯一的IDM厂商。英特尔的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和缓慢的更新速度,一直没有非常大的起色。进入Core i时代后,英特尔通过将核芯显卡和CPU进行捆绑销售,利用CPU的庞大市场份额,确立了公司在集成GPU领域的寡头垄断地位,在此过程中AMD的APU一直是酷睿的直接竞争对手。2020年,英特尔推出了第12代GPGPU,采用全新的Xe微架构和10纳米Super Fin制程。相较于第11代核显,Xe-LP在保持电压不变的前提下,大幅提升主频,能效显著提高。搭载Xe-LP的i7 1185G7在GPU性能方面已经超过同期AMD的Vega核显和英伟达的MX系列独显。Xe系列可以细分为,集成/低功耗的Xe-LP、娱乐/游戏的Xe-HPG、数据中心/高性能的Xe-HP、高性能计算的Xe-HPC。目前,Xe-LP的集成版本已经被第11代酷睿所采用。Xe-LP的移动独立GPU版本DG1和服务器独立GPU版本SG1也已发布。独显版在核显版的基础上进一步提升主频,并加入了128位4GB LPDDR4X-4266独立显存,单精度浮点算力提升15%。英特尔Xe纵向对比第11代核显英特尔Xe产品线英特尔的集成GPU在形式上表现为核芯显卡。核芯显卡使用系统DRAM作为非独立显存,通过处理器内部的环状总线与CPU连接,负责处理游戏、视频娱乐等图像负载。英特尔Xe核显借助10纳米SuperFin的优势,将处理单元最高提升至96个,相较于Icelake的64个提升了50%,并且将连接CPU和GPU的总线带宽提升一倍,独立最终缓存(LLC)提高50%,支持最高86GB/s的存储带宽。以上这些提升使i7-1185G7的3DMark跑分较前代i7-1065G7提升接近一倍,超过AMD的R74800U和同期英伟达的MX350。Xe核显的显示引擎和媒体引擎也都得到加强。接口方面,内部支持双eDP,外部支持DP1.4、HDMI2.0、雷电4、USB4 Type-C。画质方面,支持8K、HDR10、12比特BT2020色域、360赫兹刷新率等。英特尔Xe核心显卡和CPU经由自家One API驱动中间层框架和上层应用。英特尔One API解决了编码模型在不同微架构间的壁垒,最大化跨平台表现和最小化开发成本。英特尔Tiger Lake 实物图和Die英特尔Tiger Lake Xe核显3DMark性能对比英特尔独立GPU分为锐炬Xe MAX和服务器GPU,均隶属于Xe LP系列,微架构与核显Xe相同,采用标准封装和10纳米SuperFin制程。目前,锐炬Xe MAX是第一款基于英特尔 Xe 架构的面向轻薄型笔记本电脑的GPU。锐炬Xe MAX在Xe集成GPU的基础上增加了4GBLPDDR4X-4266的独立显存,TDP 25W,峰值主频1650MHz,单精度浮点性能2.46TFLOPs。锐炬Xe MAX可以和11代酷睿处理器、锐炬Xe GPU同时工作。借助英特尔Deep Link技术,获得具有强大性能和经过功耗优化的集成系统,以改进创造力和游戏体验。目前,英特尔服务器GPU在Xe核显的基础上,TDP提升到23W,增加了8GB LPDDR4的独立显存,支持高密度、低延迟的安卓云游戏和高密度媒体转码/编码,以实现实时的OTT视频直播。同时,英特尔服务器GPU支持2颗、4颗独立GPU的聚合,成倍提高性能。未来,英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线,增加了光线追踪等硬件支持,采用传统封装,外包生产。英特尔服务器GPU将使用Xe HPC、Xe HP微架构,采用2.5D和3D先进封装,10纳米SuperFin及更先进自家或外包工艺。英特尔Xe服务器GPU参数英特尔Xe产品、封装、制程英特尔锐炬Xe MAX

4、ARM Mali:全球GPU IP巨头

5、全球GPU IP巨头:Imagination

6、高通Adreno:全球移动GPU先驱

高通的自研GPU Adreno源于收购的AMD移动GPU Imageon系列。早期的Adreno 100系列只有2D图形加速和有限的多媒体功能。2008年发布的Adreno 200是首款被集成到骁龙SoC中的GPU,并加入了3D硬件加速功能。2020年12月,高通推出了搭载Adreno 660的骁龙888 SoC。Adreno 660继承了Adreno650的微架构,采用了三星5纳米LPE工艺,大幅提高主频,使图形渲染性能提高35%,能效提高20%。Adreno 660全面支持Qualcomm® Snapdragon Elite Gaming和Qualcomm® Game Quick Touch ,二者将可变速率渲染和响应速度分别提升30%和20%。在GFXBench Aztec Ruin 1080P测试中,Adreno 660的峰值帧数追平麒麟9000,但相较苹果A14仍有近20%的差距。高通Adreno 660 1080P性能对比高通Adreno 660 GPU高通Adreno 660参数

7、苹果:全球移动GPU新秀

苹果的自研GPU首次出现于2017年的A11 SoC。A11的三核心GPU作为苹果的首款自研GPU,其性能超过采用Power VR GT7600+的A10 GPU 30%。其后,所有的A系列SoC的GPU均为苹果自研。2020年,苹果推出了5纳米制程的M1芯片,该款SoC基于A14芯片,在CPU、GPU、NPU、缓存等各方面都进行了强化,用于驱动苹果的Mac产品。M1芯片的发布标志着苹果继2005年放弃IBM的PowerPC指令集转向Intel的X86指令集后的又一大PC领域转换。采用8核GPU的M1拥有128个执行单元,可以同步运行近25000个线程,单精度浮点算力达到2.6 TFLOPs。M1 GPU的能效表现是当时同类PC中集成GPU的三倍,峰值性能最高可达其他GPU的2倍。苹果M1 GPU参数苹果M1能效对比苹果M1 8核GPU

三、国产GPU自主之路

1、景嘉微:具有完全自主知识产权,打破国外GPU长期垄断

2、芯原微电子:国产GPU IP龙头

芯原微电子是依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。公司至今拥有高清视频、高清音频及语音、车载娱乐系统处理器、视频监控、物联网连接、数据中心等多种一站式芯片定制解决方案,以及5类自主可控的处理器IP,分别为图形处理器IP、神经网络处理器IP、视频处理器IP、数字信号处理器IP和图像信号处理器IP,以及1,400多个数模混合IP和射频IP,年均流片项目超过40个。主营业务的应用领域广泛包括消费电子、汽车电子、计算机及周边、工业、数据处理、物联网等,主要客户包括IDM、芯片设计公司,以及系统厂商、大型物联网公司等。芯原在传统CMOS、先进FinFET和FD-SOI等全球主流半导体工艺节点上都具有优秀的设计能力,先进工艺制程覆盖14nm/10nm/7nm FinFET和28nm/22nm FD-SOI,并已开始进行5nm FinFET 芯片的设计研发和新一代 FD-SOI 工艺节点芯片的设计预研。此外,根据Ipnest统计,芯原是2019年中国大陆排名第一、全球排名第七的半导体IP授权服务供应商,全球市场占有率约为1.8%。芯原股份发展历程2019全球IP企业市占率排名芯原GPU IP源于公司在2016年收购的美国嵌入式GPU设计商图芯技术(Vivante)。芯原在GPU IP领域已经掌握了支持主流图形加速标准、自主可控指令集和可拓展性强,性能范围广泛等核心技术,可广泛应用于IOT、汽车电子、PC等市场。根据 IPnest 报告,芯原GPU IP(含 ISP)市场占有率排名全球前三,仅次于ARM和Imagination,2019 年全球市场占有率约为 11.8%。目前,芯原在图形处理器技术的研发课题包括通用图形处理器运算内核的持续优化和矢量图形处理器DDR-Less技术。矢量GPU DDR-Less技术可以在不使用外部存储器DDR的基础上,实现架构清晰、分工明确、易于使用、软件控制流程简单等优点,适用于物联网、可穿戴设备和车载设备。2019全球IP设计分类芯原GPU IP的核心技术和典型应用示例芯原可拓展Vivante GPU IP应用涵盖从低功耗的小型物联网MCU(GPU Nano IP系列)到面向汽车和计算机应用的强大SoC(GPUArcturus图形IP),可满足各种芯片尺寸和功耗预算,是具有成本效益的优质图形处理器解决方案。芯原的的图形处理器技术支持业界主流的嵌入式图形加速标准Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等,具有自主可控的指令集及专用编译器,支持每秒2500亿次的浮点运算能力及128个并行着色器处理单元。芯原GPU Nano IP产品线及其可应用场景芯原GPU IP API和操作系统兼容性芯原股份现有的半导体IP分为处理器IP、数模混合IP及射频IP,其中GPU IP隶属于处理器IP。整体来看,2017-2019芯原得益于不断丰富的IP储备及一站式芯片定制业务的协同效应,公司半导体IP授权业务收入持续上升,GPU IP的年复合增速达13%。2019年GPU IP的营收占公司半导体IP营收的31.29%,主要由于其他类型IP收入上升,GPU IP比重相对下降。芯原在图形处理器技术方面的研发包括高性能的通用图形处理器GC8400 IP,该IP适用于汽车电子,目前仍处IP设计验证阶段,拟达到每秒1万亿次的浮点运算能力双倍精密度,512个并行着色器处理单元 。

3、航锦科技

4、兆芯:同时掌握CPU、GPU、芯片组三大核心技术

5、凌久电子GPU

凌久电子创立于1983年,是中国船舶重工集团公司第七〇九研究所控股的高新技术企业。凌久电子以嵌入式实时信号处理与高性能计算技术为基础,面向船舶、航空、航天、兵器等国防电子领域及轨道交通、海工装备、能源电力、半导体制造等民用高科技领域提供芯片级、模块级、设备级、系统级等软硬件产品;面向科研院所、部队及军校提供作定制化军事仿真服务。凌久电子产品包括元器件类产品、基础硬件设备、基础支撑软件、应用类产品四大类。其中国产通用GPU GP101隶属于元器件类产品。凌久电子平台产品凌久电子元器件类产品分类凌久电子股权结构GP101是由中国船舶重工集团第709研究所控股的凌久电子研制,具备完全自主知识产权的图形处理器芯片。GP101支持2D/3D图形加速,支持二维矢量图形加速,支持4K分辨率、视频解码和硬件图层处理等功能GP101支持VxWorks、Linux、Windows等通用操作系统,支持中标麒麟、道等国产操作系统,支持龙芯、飞腾、申威等国产处理器。GP101实现了我国通用3D显卡零的突破,在信息安全和供货能力方便有充分的保障,可以广泛应用于军民多个领域。

6、中船重工716研究所:JARI G12 GPU

七一六所自主研发的JARI G12是2018年性能最强的国产通用图形处理器。该处理器采用混合渲染架构,兼顾数据带宽和渲染延时需求,极大地增强了芯片的灵活性和适应性;提供PCIe 3.0总线,支持x86处理器和龙芯、飞腾、申威等国产处理器;支持4路数字通道和1路VGA输出,提供DP、eDP、HDMI、DVI等通用显示介面,单路数字通道最大输出分辨率为3840×2160@60fps,支持扩展、复制显示和“扩展+复制”显示模式;内建视频编解码硬核,支持2路3840×2160分辨率视频的编码、解码功能;支持OpenGL 4.5和OpenGL ES 3.0,满足高性能3D加速和VR显示需求;支持OpenCL 2.0,满足并行计算和云计算的使用需求;集成张量加速计算硬核,支持AI计算加速。该GPU支持Windows、Linux、VxWorks等主流操作系统,同时支持中标麒麟、JARI-Works、道等国内自主可控操作系统,具备健全的生态环境体系。JARI G12架构示意图

7、芯动科技:国产IP和芯片定制先驱

芯动科技是中国一站式IP和芯片定制领军企业,提供全球6大工艺厂(台积电/三星/格芯/中芯国际/联华电子/英特尔)从130nm到5纳米全套高速混合电路IP核和ASIC定制解决方案,聚焦先进制程。芯动科技15年来立足本土发展,所有IP和产品全自主可控,连续十年中国市场份额领先。公司客户群涵盖华为海思、中兴通讯、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企业。在高性能计算/多媒体&汽车电子/IoT物联网等领域,芯动解决方案具有国际先进水平,涵盖DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含 PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能图像处理器GPU和多媒体处理内核等多种技术。芯动科技的芯片定制,跨工艺跨封装,涉及从需求到产品, 能端到端为客户加速从规格、设计到流片量产,及封装成型全流程。芯动科技一站式IP系列芯动科技高性能计算平台IP2020年10月13日,芯动科技与Imagination达成合作。采用最前沿的多晶粒芯片(chiplet)和GDDR6高速显存等SOC创新,芯动科技将全球首发Imagination全新顶配BXT多核架构。在信创和算力安全方面,“风华”系列GPU内置国产物理不可克隆iUnique Security PUF信息安全加密技术,提升数据安全和算力抗攻击性,支持桌面电脑和数据中心GPU计算自主可控生态。“风华”系列GPU自带浮点和智能3D图形处理功能,全定制多级流水计算内核,兼具高性能渲染和智能AI算力,还可级联组合多颗芯片合并处理能力,灵活性强,适配国产桌面市场1080P/4K/8K高品质显示,支持VR/AR/AI,多路服务器云桌面、5G数据中心、云教育、云游戏、云办公等中国新基建5G风口下的大数据图形应用场景。

8、华为海思:GPU Turbo

9、龙芯:GPU突击队

10、芯瞳半导体:高性能GPU设计新星

11、天数智芯:国产GPGPU领跑者

12、壁仞科技和沐曦集成电路

壁仞科技创立于2019年,团队由国内外芯片和云计算领域核心专业人员、研发人员组成,在GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累和独到的行业洞见。壁仞科技致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染、高性能通用计算等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。沐曦集成电路专注于设计具有完全自主知识产权,针对异构计算等各类应用的高性能通用GPU芯片。公司致力于打造国内最强商用GPU芯片,产品主要应用方向包含传统GPU及移动应用,人工智能、云计算、数据中心等高性能异构计算领域。对于研发的方向,沐曦表示将采用业界最先进的5nm工艺技术,研发全兼容CUDA及ROCm生态的国产高性能GPU芯片,满足HPC、数据中心及AI等方面的计算需求。GPU将采用原创专利保护的可重构GPU架构,突破传统GPU芯片能效瓶颈;采用数据压缩,数据广播以及共享硬件加速单元等先进技术,大幅度优化核心算力能耗比。沐曦高性能GPU研发项目

12、登临科技和摩尔线程

登临科技成立于2017年11月,是一家专注于为新兴计算领域提供高性能、高功效计算平台的高科技企业。公司的产品是以芯片为核心的系统解决方案,在所有核心IP上坚持自研路线。登临科技已完成由元禾璞华、元生资本联合领投的A+轮融资,包括北极光在内的老股东持续在本轮加码跟进。登临科技的首款GPU+(软件定义的片内异构通用人工智能处理器)产品已成功回片通过测试,开始客户送样,公司团队具备架构、系统、软件、硬件、芯片、验证等方面的综合能力。登临科技GoldwasserTM GPU+产品在现有市场主流的GPU架构上,创新采用软硬件协同的异构设计。GPU+异构设计让产品在对客户实际业务继承在现有生态上的投入、在保证极高兼容性的同时,相比传统GPU在AI计算上性能和能效均有明显提升,大大降低了外部带宽的需求,显著降低客户总拥有成本。摩尔线程创立于2020年10月,去年12月获得天使轮融资,今年2月22日获得Pre-A轮融资。摩尔线程致力于构建中国视觉计算和人工智能领域计算平台,研发全球领先的自主创新GPU知识产权,其GPU产品线覆盖通用图形计算和高性能计算。公司核心成员主要来自英伟达、微软、英特尔、AMD、ARM等,覆盖GPU研发设计、生产制造、市场销售、服务支持等完整架构。

13、国产GPU新星:翰博半导体

14、国产GPU新星:燧原科技

燧原科技成立于2018年3月,专注于人工智能领域云端算力平台,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品。燧原科技的产品技术由训练、推理、软件平台构成。其中,训练业务包含加速卡 “云燧T10” 和“云燧T11”;推理业务包含加速卡 “云燧i10”;软件平台包含“驭算”。“云燧”系列加速卡采用自研DTU架构,支持ESL高速互联和开放生态。 “云燧”芯片采用格罗方德的12nm FinFET工艺,结合 2.5D先进封装,拥有141亿晶体管和16GB HBM2显存,在FP32的算力和能效比方面领先GPU。计算及编程平台“驭算”,由燧原自主研发,支持主流深度学习框架,并针对邃思芯片进行了针对性优化。智东西认为,GPU设计之初是为了图像处理,但是随着技术的不断迭代升级,GPU的功能已经不仅限于“画图”,凭借在并行处理和通用计算的优势,GPU在服务器、汽车、人工智能、边缘计算等领域已经开始大放异彩。现阶段,虽然国产GPU与英伟达、AMD等世界巨头差距明显,但在一些空白的细分领域或许有很大的“弯道超车”空间。

扫描二维码推送至手机访问。

版权声明:本文由虾皮情感网发布,如需转载请注明出处。

本文链接:https://xiopi.com/article/23653.html

标签: GPU技术设计
分享给朋友:

“gpu发展史简介 gpu性能指标详解” 的相关文章

变形金刚人物的手绘图 变形金刚的人物设计图

变形金刚人物的手绘图 变形金刚的人物设计图

《变形金刚》直到现在也很受模友们喜欢,喜欢的人多了就会出现一些比较脑洞大的创意改造,接下来为大家带来的是模友Luisu的变形金刚撞色混搭人物插画,模友将变形金刚中的一些角色进行了撞色设计,大家能认出这些角色都是谁吗? 第一张比较明显了,是变...

电瓶快充2小时能行吗 快充对电瓶有影响吗

电瓶快充2小时能行吗 快充对电瓶有影响吗

电池充电有充满电的不同定义.   例如,有一些电池以充入电量为电池容量的90%为准,有一些以电池完全充电为标准.   如低内压的密封电池,在充电后期,电池的充电接受能力很弱,补足充电时间很长,就设定为充入电量为90%就是充满电.有一些高内压...

最好听的惊雷版本原唱 惊雷是谁唱的图片

最好听的惊雷版本原唱 惊雷是谁唱的图片

最近出了这么一档子事,杨坤,就是那个凭着“无所谓”出道的歌手,最近因为自己的专业领域有所谓了一回。杨坤直言称《惊雷》完全是不入流的东西。 当我第一眼看到杨坤diss《惊雷》的热搜时,第一反应就是——啥是惊雷?于是我去搜索了一下,听了听……这...

户外帐篷绳结打法 系帐篷绳结

户外帐篷绳结打法 系帐篷绳结

说到绳子,在户外休闲活动中,帐篷和帐篷的设置等是必要的项目,最近户外活动的人气颇高,手上拿绳子的人似乎也增加了,但很多人并不会很好地运用它们,这非常需要了解并学习一下“绳索的搬运方法”,关于如何灵活运用也很重要。绳子缠绕、体积大的话,不仅仅...

不花钱在家能赚钱简单的副业 一个简单又能赚钱的长久副业

不花钱在家能赚钱简单的副业 一个简单又能赚钱的长久副业

今天给大家分享7大赚钱副业,新手小白0粉丝0门槛0技术都可以去做,不说大富大贵,但是赚个零花钱还是可以。如果你已经是赚钱高手,那就可以略过啦。 最近几年,在疫情的冲击下,可能有人失业,也有人收入缩减,也有人在主动寻找赚钱机会,寻找自己的副业...

举例说明区块链的加密算法 简析区块链中密码算法的应用

举例说明区块链的加密算法 简析区块链中密码算法的应用

根据2020年4月28日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2020年第8号),全国信息安全标准化技术委员会归口的GB/T 20281-2020《信息安全技术防火墙安全技术要求和测试评价方法》等26项...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。