欧美视频一二三四区,久久这里只有视频精品3

[導(dǎo)讀]傳統(tǒng)FPGA只支持定點(diǎn)運(yùn)算的瓶頸越發(fā)凸顯。 Achronix為了解決這一大困境，創(chuàng)新地設(shè)計(jì)了機(jī)器學(xué)習(xí)處理器（MLP）單元，不僅支持浮點(diǎn)的乘加運(yùn)算，還可以支持對(duì)多種定浮點(diǎn)數(shù)格式進(jìn)行拆分。

MLP全稱Machine Learning Processing單元，是由一組至多32個(gè)乘法器的陣列，以及一個(gè)加法樹、累加器、還有四舍五入rounding/飽和saturation/歸一化normalize功能塊。同時(shí)還包括2個(gè)緩存，分別是一個(gè)BRAM72k和LRAM2k，用于獨(dú)立或結(jié)合乘法器使用。MLP支持定點(diǎn)模式和浮點(diǎn)模式，對(duì)應(yīng)下面圖1和圖2。

考慮到運(yùn)算能耗和準(zhǔn)確度的折衷，目前機(jī)器學(xué)習(xí)引擎中最常使用的運(yùn)算格式是FP16和INT8，而Tensor Flow支持的BF16則是通過降低精度，來獲得更大數(shù)值空間。下面的表1是MLP支持的最大位寬的浮點(diǎn)格式，表2說明了各自的取值范圍。

而且這似乎也成為未來的一種趨勢。目前已經(jīng)有不少研究表明，更小位寬的浮點(diǎn)或整型可以在保證正確率的同時(shí)，還可以減少大量的計(jì)算量。因此，為了順應(yīng)這一潮流，MLP還支持將大位寬乘法單元拆分成多個(gè)小位寬乘法，包括整數(shù)和浮點(diǎn)數(shù)。詳見下表3。

值得注意的是，這里的bfloat16即Brain Float格式，而block float為塊浮點(diǎn)算法，即當(dāng)應(yīng)用Block Float16及更低位寬塊浮點(diǎn)格式時(shí)，指數(shù)位寬不變，小數(shù)位縮減到了16bit以內(nèi)，因此浮點(diǎn)加法位寬變小，并且不需要使用浮點(diǎn)乘法單元，而是整數(shù)乘法和加法樹即可，MLP的架構(gòu)可以使這些格式下的算力倍增。