FPGA运算单元现如今 已可以 支持高算力浮点

文章图片

    伴随着深度学习(MachineLearning)行业愈来愈多地应用当场程序控制器门阵列(FPGA)来开展逻辑推理(inference)加快,而传统式FPGA只支持指定运算的短板愈发突显。Achronix以便处理这一大窘境,自主创新地设计方案了深度学习CPU(MLP)单元,不但支持浮点的乘加运算,还能够支持对多种多样定浮点数格式开展分拆。

    MLP全名MachineLearningProcessing单元,是由一组最多32个乘法器的列阵,及其一个加法树、累加器、也有四舍五入rounding/饱和状态saturation/归一化normalize功能块。另外还包含两个缓存文件,分别是一个BRAM72k和LRAM2k,用以单独或融合乘法器应用。MLP支持指定方式和浮点方式。


   4-1.png


    充分考虑运算耗能和精确度的折中,现阶段深度学习模块中最经常应用的运算格式是FP16和INT8,而TensorFlow支持的BF16则是根据减少精密度,来得到更大标值室内空间。


    并且这好像也变成将来的一种发展趋势。现阶段早已有许多研究表明,更小位宽的浮点或整形能够在确保准确率的另外,还能够降低很多的测算量。因而,以便切合这一时尚潮流,MLP还支持将大位宽加法单元拆分为好几个小位宽加法,包含整数金额和浮点数。


    4-2.png

    特别注意的是,这儿的bfloat16即BrainFloat格式,而blockfloat为块浮点优化算法,即当运用BlockFloat16及更底位宽块浮点格式时,指数值位宽不会改变,小数位缩减到了16bit之内,因而浮点加法位宽缩小,而且不用应用浮点加法单元,只是整数金额加法和加法树就可以,MLP的构架能够使这种格式下的算力增长。


相关文章

发表评论

评论

    暂无评论

©Copyright 2013-2025 亿配芯城(深圳)电子科技有限公司 粤ICP备17008354号

Scroll