ARM发布最新Compute Library-电子发烧友网

|
尽管我们没有对这些函数做一些急进的优化(这些函数选用 NEON intrinsic而非手艺优化的汇编语言编写),但与运用 FP32 且必须在不同格局之间变换比较,功用有了大幅进步。下表比较了一些作业负载,从中可以看出,凭借 v8.2 CPU 指令,可以削减核算所需的周期数。

面向 Bifrost 架构的 GPU 优化 现在,许多移动合作伙伴正在运用 Mali GPU 来加速机器学习作业负载的速度。依据这些合作伙伴的反应,我们在这个范畴做了针对性的优化。

新的Direct卷积 3x3 和 5x5 函数针对 Bifrost 架构进行了优化,功用与上一发行版 中的例程比较有了明显进步。在部分测验渠道上运用这些新例程时,我们发现功用普遍进步约 2.5 倍。此外,在 AlexNet 的多批量作业负载中,GEMM 中引进的新优化协助我们获得了 3.5 倍的功用进步。功用因渠道和完成办法而异,但整体而言,我们估计这些优化可以在 Bifrost GPU 上明显进步功用。

下图显现了在华为 Mate 9 智能手机上的一些测验成果,测验中禁用了 DVFS,取 10 次运转中最短的履行时间作为成果。由此可见,新例程在功用上优于旧版本。

内存办理器 杂乱作业负载(大型网络)会需求很多内存,关于嵌入式渠道和移动渠道而言,这正是影响功用的症结所在。我们听取了合作伙伴的反应,决议在库的运转时组件中增加一个 内存办理器 功用。内存办理器经过循环运用暂时缓冲区下降通用算法/模型的内存要求。

内存办理器包括一个生命周期办理器(用于盯梢注册方针的生命周期)和一个池办理器(用于办理内存池)。当开发人员装备函数时,运转时组件会盯梢内存要求。例如,一些张量可能仅仅是暂时的,所以只分配所需的内存。内存办理器的装备应从单一线程循序履行,以便进步内存运用率。

下表显现了在运用内存办理器时在我们测验渠道上测量到的内存节约状况。成果因渠道、作业负载和装备而异。整体而言,我们以为内存办理器可以协助开发人员节约内存。

接下来,我们方案持续依据合作伙伴和开发人员的需求,进行详细的优化。此外,我们还将注重与机器学习结构的集成,并与 Google Android NN 等新的 API 坚持同步。

我们的方针不是包括一切数据类型和函数,而是依据开发人员和合作伙伴的反应,精选出最需求施行的函数。所以,我们期待着听到您的声响!

请尊重我们的辛苦付出,未经允许,请不要转载ca88亚洲城【官】_电子爱好者网的文章!
window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdMiniList":false,"bdPic":"","bdStyle":"1","bdSize":"32"},"share":{}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];
上一篇:示波器QC2.0/3.0快充协议解码-电子发烧友网
下一篇:一文读懂光纤光缆范畴的微管气吹