AI神經網絡加速棒

 提示:點擊圖片可以放大

TPU是一(yī)款自(zì)主的、高性能的、通用深度學習(xí)加速棒。同時支持X86平台、ARM平台、MIPS平台等主流平台的運行。內(nèi)置CNN網絡加速引擎,可以實現高性能、低(dī)功耗的CNN網絡模型的加速。TPU架構設計(jì)先進,可以高效完成多路動态視頻(pín)流的人(rén)臉檢測、跟蹤、特征提取和識别,高效支持墨鏡、口罩、性别、年齡等屬性檢測。提供強大的可編程運算能力,滿足CNN算法實時性處理的運算要求。芯片有自(zì)定義指令集和編程框架,除可運行人(rén)臉識别算法外,還支持其他(tā)(tā)主流的 CNN算法移植,包括服裝識别、表情識别、背包識别等。同時也(yě)支持其他(tā)(tā)計(jì)算機視覺CNN 算法移植和應用。

AI神經網絡加速棒(圖1)

AI神經網絡加速棒(圖2)

借助TPU,計(jì)算機視覺和人(rén)工(gōng)智能可以輕松地(dì)(dì)部署到物聯網和邊緣設備上。無論開(kāi)發者研發智能相(xiàng)機、無人(rén)機、工(gōng)業(yè)機器人(rén)、智能家居設備或是實現邊緣計(jì)算項目,TPU都(dōu)能讓原型設備運行得(de)更加快(kuài)速、更加智能。此外,借助TPU生(shēng)态系統,開(kāi)發者現在可以将他(tā)(tā)們的TPU原型移植到其他(tā)(tā)産品上,并實現設計(jì)的産品化(huà)(huà)。TPU的優點是不(bù)需要額外的硬件(jiàn),因此用戶可以快(kuài)速轉換并将計(jì)算機訓練模型無縫部署到各種各樣的設備上,并且無需網絡或雲端連接。也(yě)就(jiù)是說(shuō),開(kāi)發者隻要一(yī)台筆記本電腦和TPU,僅需數分鐘(zhōng)就(jiù)可以讓其AI 應用程序運轉。

AI神經網絡加速棒(圖3)


TPU實現了深度學習(xí)異構計(jì)算,可以在标準的USB3.0串行通信口上進行計(jì)算機視覺與人(rén)工(gōng)智能的推理加速。TPU支持多路圖片和視頻(pín)的編解碼,并可以實現多路的視頻(pín)和圖片編解碼。TPUAI加速核心共有4個(gè),每個(gè)加速核心提供0.5TPOS的計(jì)算算力,并可以根據實際需求設定加速核心的個(gè)數從而調節TPU運行功率。TPU還支持目前AI領域的主流框架:MxnetTensorflowPytorch Caffe。在AI加速項目部署功能方面還支持Graph模式,以數據流的方式,提供跨平台(主控和TPU)的數據流水處理。Graph 提供直觀的編程模式,支持json 配置文件(jiàn)創建,在主控端直接調用TPU上的NodeClass 算子,大大提高解決方案設計(jì)效率。


這些(xiē)強大的功能背後的實現依賴的是TPU上的強大的固件(jiàn)系統和穩定的硬件(jiàn)設備,通過标準的USB3.0接口把多路視頻(pín)流或者圖片傳輸到TPU上的主控芯片上,由TPU內(nèi)部進行視頻(pín)解碼或者圖片解碼。使用提供的desdk api進行基TPU的項目開(kāi)發,由編譯工(gōng)具鍊把項目編譯,完成後下(xià)載到固件(jiàn)系統上部 署,如設定好要使用的加速算子、業(yè)務流程、調用的加速核心數量、輸入的圖片大小和模型等等,項目運行後就(jiù)可以通過USB3.0端口進行數據交換,從而獲得(de)經過TPU加速計(jì)算後的數據。


處理器內(nèi)核 : 

⚫ 32 位超高性能嵌入式 CPU 處理器; 

⚫ 支持 16/32 位混合編碼的 RISC 指令集; 

⚫ L1 I/D 32KByte,L2 128KByte,主頻(pín)最高支持 1.0GHz; 

⚫ 單位性能最高支持 2.5DMIPS/MHz; 

⚫ 支持大端和小端模式; 

⚫ 支持 MMU,MMU 支持軟件(jiàn)動态配置地(dì)(dì)址映射表; 

⚫ 內(nèi)部硬件(jiàn)調試模塊支持片上硬件(jiàn)調試; 

⚫ 支持內(nèi)核省電和動态頻(pín)率調整等低(dī)功耗技術; 


神經網絡處理器 NNP: 

⚫ 內(nèi)含四核 NNP 神經網絡處理器,主頻(pín)最高支持 750Mhz;

⚫ 自(zì)定義神經網絡處理器指令集和架構; 

⚫ 支持 INT16/INT12/INT8 數據類型; 

⚫ 支持 CNN 算法所需的指令集; 

⚫ 支持 weight 參數壓縮; 

⚫ 支持 feature map 壓縮; 

⚫ 支持 caffe/tensorflow/mxnet 等主流深度學習(xí)框架; 

⚫ 支持 Invasive 和 non-Invasive 的通用 Debug 架構; 

⚫ 支持處理器級聯擴展、支持協處理器擴展; 

⚫ 時鐘(zhōng)門控、電源門控、多電壓等典型低(dī)功耗技術;


DSP 處理器 : 

⚫ 雙核 Vision Processor DSP,主頻(pín)最高支持 550Mhz; 

⚫ 32KB I-Cache/64KB ITCM/256KB DTCM; 

⚫ 支持小端方式; 加速運算子 ACC : 

⚫ 支持色彩空間轉換; 

⚫ 支持視頻(pín)縮放; 

⚫ 支持梯度統計(jì); 

⚫ 支持直方圖統計(jì); 

⚫ 支持 FFT 運算; 


視頻(pín)解碼 : 

⚫ 支持多路 H.264 解碼,性能為 4KP30;

⚫ 支持多路 H.265 解碼,性能為 4KP30,同時支持參考幀壓縮功能; 

⚫ 支持 I 幀/P 幀/B 幀解碼; 

⚫ 支持 MPEG4/MPEG2/MPEG1 解碼; 

⚫ 支持 JPEG 解碼,解碼 IMAGE SIZE 支持 48x48 to 16Kx16K; 

⚫ 支持 Clock gating 功能; 

⚫ 支持 Powerdown 功能; 


視頻(pín) JPEG 編碼 : 

⚫ 支持 YCbCr4:2:0 Planar、YCbCr4:2:0 semi-planar、YCrCb4:2:0 semiplanar 格式輸入; ⚫ 支持 RGB565、RGB888 和 RGB101010 格式輸入; 

⚫ 支持輸入圖像分辨率範圍 96x32 to 8192x8192,像素尺寸步進為 4; 

⚫ 支持 RGB to YCbCr4:2:0 色彩空間轉換; 

⚫ 支持 YCbCr4:2:2 to YCbCr4:2:0 色彩空間轉換; 

⚫ 支持 8Kx8K@2fps 編碼性能; 


MIPI CSI : 

⚫ 支持 MIPI CSI1.2 RX 4 Lane 輸入接口,最高性能為 4K30; 

⚫ 可支持的 YUV 數據類型:YUV420/YUV422,支持 8bit; 

⚫ 支持 RAW8 格式輸入; 

⚫ 符合标準 MIPI CSI-2 協議 V1.2,向下(xià)兼容 V1.1 和 V1.0; 


USB : 

⚫ 支持 USB 3.0/USB 2.0 标準協議,支持 super-speed, high-speed, fullspeed, low-speed

⚫ 支持 HOST 模式、DEVICE 模式,HOST 和 DEVICE 模式可軟件(jiàn)配置切換,在 上電時配置切換, ⚫ 不(bù)支持使用中(zhōng)動态切換; 

⚫ HOST 和 DEVICE 模式都(dōu)支持協議規定的 CTRL/BULK/ISO/INTR 傳輸類型; 

⚫ 不(bù)支持 OTG 功能; 


BT1120 : 

⚫ 支持 BT1120 視頻(pín)輸入接口,性能最高支持 1080p@60fps; 

⚫ 1 根時鐘(zhōng)線,16 根數據線,數據傳輸隻支持并口模式; 

⚫ 隻支持逐行模式,支持典型的 720p/1080p 時序; 


 DDR : 

⚫ DDR4 支持最高速率 2667Mbps; 

⚫ 外接 DDR 2GByte; 

⚫ 支持 ODT 功能; 

⚫ 支持 QOS 功能; 

⚫ 支持動态 Training 功能; 


芯片處理能力 : 

⚫ 芯片提供 2.0Tops 峰值算力:滿足視覺 AI 算法實時性處理的運算要求; 

⚫ 支持每秒最大 1200 張人(rén)臉跟蹤能力; 


其它說(shuō)明(míng) : 

⚫ 內(nèi)含 2 個(gè) Temp_sensor,支持功耗動态管理; 

⚫ 支持版本在線升級;


Tag: AI
将此二維碼圖片分享給朋友即可直達本頁: