除了面向64位移動(dòng)計(jì)算的Cortex-X2、Cortex-A710、Cortex-A510三款全新CPU IP,ARM今天還帶來(lái)了多達(dá)四款新的移動(dòng)GPU IP,同樣啟用新的命名規(guī)則,分別是Mali-G710、Mali-G610、Mali-G510、Mali-G310。
G710、G510、G310分別定位旗艦、主流、入門級(jí)市場(chǎng),依次取代現(xiàn)有的G78、G57、G310。
G610其實(shí)和G710是一回事兒,只是核心數(shù)較少時(shí)單獨(dú)使用的名字。
這是ARM Valhall GPU架構(gòu)的第三代產(chǎn)品,也是第一次完整覆蓋高中低端各個(gè)領(lǐng)域。
搭配同時(shí)發(fā)布的Cortex-X2/A710/A510 CPU、CoreLink CI-700一致性互連技術(shù)、CoreLink NI-700芯片網(wǎng)絡(luò)一起,它們可以構(gòu)成完整、強(qiáng)大的SoC解決方案。
雖然架構(gòu)變化不大,只是繼續(xù)優(yōu)化提升,但是這一代Mali GPU的性能進(jìn)步還是很可觀的:
G710號(hào)稱綜合性能提升20%、機(jī)器學(xué)習(xí)性能提升35%、紋理性能提升50%、能效提升20%。
G510綜合性能提升100%、機(jī)器學(xué)習(xí)性能提升100%、能效提升22%。
G310雖然定位最低但變化最大,號(hào)稱紋理性能提升多達(dá)6倍、Vulkan性能提升4.5倍、安卓UI內(nèi)容性能提升2倍。
G710的執(zhí)行引擎設(shè)計(jì)和G77、G78十分相似,變化更多是一些細(xì)節(jié)。
wavefront/warp大小從8翻番到了16,而且每個(gè)執(zhí)行引擎有兩個(gè)數(shù)據(jù)路徑,最終形成每個(gè)核心32個(gè)FMA。
ISA指令集也有了不小的改進(jìn),可以更好地滿足Vulkan等現(xiàn)代GPU的需求,但暫無(wú)細(xì)節(jié)。
G710還新增了一個(gè)執(zhí)行引擎,每個(gè)著色器核心的計(jì)算性能因此翻番,同時(shí)每核心每時(shí)鐘周期的不同吞吐量也有4倍、8倍的增加。
紋理單元也是全新的,每時(shí)鐘周期可以處理最多80億紋理,再加上面積優(yōu)化,單位密度紋理性能提升了50%。
16寬度執(zhí)行單元單實(shí)例變成了4寬度四實(shí)例,整體吞吐量不變,但是資源分配更合理,效率更高。
新的執(zhí)行引擎每核心每時(shí)鐘周期FMA翻了一番,同時(shí)功耗也優(yōu)化降低了20%。
另外,傳統(tǒng)的工作管理器(Job Manager)變成了新的“指令流前端”(Command Stream Frontend),負(fù)責(zé)調(diào)度和處理draw-call,還第一次帶來(lái)了固件層,與硬件緊密配合處理主機(jī)需求。
G710可以配置8-16個(gè)不同核心數(shù),G610則是最多6個(gè)核心,另外二級(jí)緩存可以配置2個(gè)或4個(gè)區(qū)塊,每個(gè)區(qū)塊256KB或者512KB, 也就是整體最小512KB,最多2MB。
G510支持2-6個(gè)核心配置,每核心每執(zhí)行單元的配置也可以定制,紋理單元也大大加強(qiáng)。
執(zhí)行引擎還是2個(gè),但也可以配置為只用1個(gè),每時(shí)鐘周期64 FMA會(huì)因此減少到48 FMA。
ARM列舉了G510 10種可能的不同規(guī)格配置,計(jì)算能力、填充率各有不同,適合不同應(yīng)用需求。
G310雖然定位最低,但這次升級(jí)力度最大,終于拋棄了古老的Bifrost架構(gòu)。
它因此有了新的執(zhí)行引擎設(shè)計(jì),支持靈活的規(guī)模配置,每核心可以有16、32、48、64 FMA,紋理單元最低則是每時(shí)鐘周期2個(gè)。
不過,G310僅支持單核心設(shè)計(jì)。
評(píng)論