硬知识:手机GPU各指标参数揭秘 (2)
性能和功能
各个ALU的功能并不一样,我们来看一下每个ALU的作用,以便了解其性能:
PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能够在每个时钟周期执行2浮点运算。每个USC即每个时钟周期的64 FLOP峰值。
PowerVR Series6 GPU内共有最多8个统一着色集群( USC )
PowerVR Series6 GPU中的FP16 ALU能够在能够在每个时钟周期执行最高3浮点运算,我们在Series6XE和Series6XT 改进了FP16 ALU可在每个时钟周期执行最高4浮点运算。按照不同的产品和系列,每个USC在每个时钟周期执行高达128浮点运算。升级型Series6XE和Series6XT更为灵活,执行流水线部分运算的编译器更为容易。
PowerVR Series6XT GPU内共有最多8个Unified Shading Clusters( USC )
最后来说一下具有专用功能的ALU,ALU可处理更复杂的算法和三角运算,如正弦、余弦、对数、倒数和亲和数、标量运算。按照这些运算的性质,设置了ALU输出精度和性能。
增强ALU内核配置
现在,我已经说明从构建USC块到利用16个并行管道执行任务来说明Rogue计算架构,各个管道有较大的专用计算资源,我们按照竞争对手的方式来说明内核。每个USC包括:32 FP32 ALU内核,高达64个FP16 ALU内核、16 个USC专用函数ALU内核。
按照同样的方式将Rogue与市场竞争产品比对,ALU内核这个术语很重要,我们希望大家尽可能按这条思路来解释内核。
最后,请记住,Imagination根据不同的产品Series6, Series6XT和Series6XE设置1对多的USC。以下为两个实例:
PowerVR G6230: 两个Series6 USC-64 FP32 ALU内核,每个时钟周期执行高达128 FLOP – 64 FP16 ALU 内核,每个时钟周期执行高达192 FLOP。也就是按照600MHz的频率执行高达115.2 FP16 GFLOPS及高达76.8 FP32 GFLOPS。
PowerVR GX6650: 六个Series6XT USC-192 FP32 ALU内核,每个时钟周期执行高达384 FLOP –384FP16 ALU 内核,每个时钟周期执行高达786 FLOP。也就是按照600MHz的频率执行高达460.8FP16 GFLOPS及高达230.4 FP32 GFLOPS。