转自 | 量子位
△ *代表推测,†代表单芯片数据。
Cerebras Wafer-Scale Engine
-
晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。
-
芯片面积最大:尺寸约20厘米×23厘米,总面积46225平方毫米。
-
片上缓存最大:包含18GB的片上SRAM存储器。
-
运算核心最多:包含410,592个处理核心
-
为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。
-
Cerebras与台积电合作发明了新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。
-
在芯片上方安装了一块“冷却板”,使用多个垂直安装的水管直接冷却芯片。
史上最大AI芯片诞生:462平方厘米、40万核心、1.2万亿晶体管,创下4项世界纪录
Google TPU(v1、v2、v3)
-
芯片面积331平方毫米,28nm制程
-
频率为700 MHz,功耗28-40W
-
片上存储为28 MB SRAM:24MB 用于激活,4MB 用于累加器
-
芯片面积比例:35%用于内存,24%用于矩阵乘法单元,剩下的41%面积用于逻辑。
-
256x256x8b收缩矩阵乘法单元(64K MACs/cycle)
-
Int8和 INT16算法(峰值分别为92和23 TOPs/s)
-
可以通过两个接口访问8 GB DDR3-2133 DRAM,速度为34 GB/s
-
PCIe-3x16 (14 GBps)
-
20nm制程,功耗在200-250W(推测)
-
BFloat16上性能表现为45 TFLOPs,也支持 FP32
-
具有标量和矩阵单元的双核
-
集成4块芯片后,峰值性能为180 TFLOPs
-
128x128x32b收缩矩阵单元(MXU)
-
8GB专用HBM,接入带宽300 GBps
-
BFloat16上的最大吞吐量为22.5 TFLOPs
-
16Gb HBM集成内存,600 GBps带宽(推测)
-
PCIe-3 x8 (8 GBps)
-
16nm或12nm制程,功耗估计在200W
-
BFloat16的性能为105 TFLOPs,可能是MXUs的2倍到4倍
-
每个MXU都能访问8GB的专用内存
-
集成4个芯片后,峰值性能420 TFLOPs
-
32GB的HBM2集成内存,带宽为1200GBps (推测)
-
PCIe-3 x8 (8 GBps)(推测)
想了解TPU 3.0?Jeff Dean推荐看看这段视频
Graphcore IPU
-
16nm制程,236亿个晶体管,芯片面积大约为800平方毫米,功耗为150W,PCIe卡为300 W
-
1216个处理器,在FP32累加的情况下,FP16算法峰值达到125 TFLOPs
-
分布在处理器核心之间有300 MB的片上内存,提供45 TBps的总访问带宽
-
所有的模型状态保存在芯片上,没有直接连接DRAM
-
2x PCIe-4的主机传输链接
-
10倍的卡间IPU链接
-
共384GBps的传输带宽
-
混合精度浮点随机算法
-
最多运行六个线程
成立两年估值17亿美元,这家Hinton点赞的AI芯片公司获宝马微软投资
Habana Labs Gaudi
-
TSMC 16 nm制程(CoWoS工艺),芯片尺寸大约为500平方毫米
-
异构架构:GEMM操作引擎、8个张量处理核(TPCs)
-
SRAM内存共享
-
PCIe卡功耗为200W,夹层卡为300W
-
片上内存未知
-
VLIW SIMD并行性和一个本地SRAM内存
-
支持混合精度运算:FP32、 BF16,以及整数格式运算(INT32、INT16、INT8、UINT32、UINT8)
-
随机数生成、超越函数:Sigmoid、Tanh、GeLU
-
4x 提供32 GB的HBM2-2000 DRAM 堆栈, 整体达1 TBps
-
芯片上集成10x 100GbE 接口,支持融合以太网上的 RDMA (RoCE v2)
-
PCIe-4 x16主机接口
Huawei Ascend 910
-
7nm+EUV工艺,456平方毫米
-
集成4个96平方毫米的 HBM2栈和 Nimbus IO处理器芯片
-
32个达芬奇内核
-
FP16性能峰值256TFLOPs (32x4096x2) ,是 INT8的两倍
-
32 MB的片上 SRAM (L2缓存)
-
功耗350W
-
内核在6 x 4的2d网格封包交换网路中相互连接,每个内核提供128 GBps 的双向带宽
-
4 TBps的L2缓存访问
-
1.2 TBps HBM2接入带宽
-
3x30GBps 芯片内部 IOs
-
2 x 25 GBps RoCE 网络接口
-
3D 16x16x16矩阵乘法单元,提供4,096个 FP16 MACs 和8,192个 INT8 MACs
-
针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算
-
支持标量操作
华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架,对标TensorFlow和PyTorch
Intel NNP-T
英伟达Volta架构芯片
-
TSMC 12nm FFN工艺,211亿个晶体管,面积为815平方毫米
-
功耗为300W,6 MB L2缓存
-
84个SM,每个包含:64个 FP32 CUDA 核,32个 FP64 CUDA 核和8个张量核(5376个 FP32核,2688个 FP64核,672个 TCs)。
-
单个Tensor Core每时钟执行64个FMA操作(总共128 FLOPS),每个SM具有8个这样的内核,每个SM每个时钟1024个FLOPS。
-
相比之下,即使采用纯FP16操作,SM中的标准CUDA内核只能在每个时钟产生256个FLOPS。
-
每个SM,128 KB L1数据缓存 / 共享内存和4个16K 32位寄存器。
-
32 GB HBM2 DRAM,900 GBps带宽
-
300 GBps的NVLink 2.0
英伟达Turing架构芯片
-
TSMC 12nm FFN工艺,面积为754平方毫米,186亿个晶体管,功耗260W
-
72个SM,每个包含:64个 FP32核,64个 INT32核,8个张量核(4608个 FP32核,4608个 INT32核和576个 TCs)
-
带有boost时钟的峰值性能:FP32上为16.3 TFLOPs、FP16上为130.5 TFLOPs、INT8上为261 TFLOPs、INT4上为522 TFLOPs
-
片上内存为24.5 MB,在6MB的 L2缓存和256KB 的 SM 寄存器文件之间
-
基准时钟为1455 MHz
-
12x32位 GDDR6存储器,提供672 GBps 聚合带宽
-
2x NVLink x8链接,每个链接提供多达26 GBps 的双向速度
https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html
从6万用户评论中,选出23门全世界最好的CS免费课
GRE作文用AI打分,已经20周年了:AI给中国考生的分数,远高于人类打分
本篇文章来源于: 深度学习这件小事
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ ICLR最高分论文揭秘模型泛化,GNN是潜力股01/30
- ♥ 算法工程师也会遇到35岁这道坎么?05/29
- ♥ 重新研究了255篇最新论文,UMBC教授发现机器学习可复现性优于大多数学科!05/09
- ♥ 手把手教你训练一个神经网络,打爆21点!04/20
- ♥ 一文读懂胶囊神经网络05/09
- ♥ 深度学习领域的数据增强06/27
内容反馈