TGFC俱乐部>>游戏业界综合讨论区>>
- 刷新/显图/登录/注册/WEB
标题:3070浮点20T 2080TI浮点13T 性能差不多?这是为什么?
时间:21-07-20 13:25
作者:LZJlzj

3070浮点20T 2080TI浮点14T 游戏性能差不多?这是为什么?

问题1:算力这东西 是有公式的 频率*流处理器*2工作周期 /1000
我自己算了下 都没问题 那么超出40%的性能去哪儿了?
问题2:是不是30系 以后 都不用看浮点算力了


这些回帖最骚
===================
卖哥 骚(2) 引用
因为基本单元改了
麦斯威尔是单浮点,图灵是浮点+整数,安培是浮点+浮点/整数。
但因为改的是基本单元,全流程没有同比扩张,在可以co-op的情况下提高吞吐量提高性能,但整体性能不会同比增加。

更极端的是vliw5,基本单元是1个复杂浮点单元+4简单浮点单元,壮观吧,该单元的实际ipc1.3,距离...
[内容过多,请查看原贴]





回复列表 (14)
#2 超越梦想 2021-7-20 13:27
posted by wap, platform: Android
喷了,我想知道我的3080ti多少浮点

===================
#3 卖哥 骚(2) 2021-7-20 13:31
因为基本单元改了
麦斯威尔是单浮点,图灵是浮点+整数,安培是浮点+浮点/整数。
但因为改的是基本单元,全流程没有同比扩张,在可以co-op的情况下提高吞吐量提高性能,但整体性能不会同比增加。

更极端的是vliw5,基本单元是1个复杂浮点单元+4简单浮点单元,壮观吧,该单元的实际ipc1.3,距离5的理论差异有多大体会一下。

===================
#4 lakins 2021-7-20 13:34
简单理解就是干活的工人增加了,派任务的没增加

===================
#5 LZJlzj 2021-7-20 13:41
原帖由 卖哥 于 2021-7-20 13:31 发表
因为基本单元改了
麦斯威尔是单浮点,图灵是浮点+整数,安培是浮点+浮点/整数。
但因为改的是基本单元,全流程没有同比扩张,在可以co-op的情况下提高吞吐量提高性能,但整体性能不会同比增加。

更极端的是vliw ...



基本单元是流处理器吗?
就是说 30系的流处理器 不如20系强?

===================
#6 卖哥 2021-7-20 13:42
原帖由 LZJlzj 于 2021-7-20 13:41 发表



基本单元是流处理器吗?
就是说 30系的流处理器 不如20系强?

单组比30比20强得多,但是30是半个当一个点数量。



===================
#7 棉花糖 2021-7-20 20:08
那么3070对比PS5 谁性能强啊- - 不算光追

===================
#8 卖哥 2021-7-20 20:55
原帖由 棉花糖 于 2021-7-20 20:08 发表
那么3070对比PS5 谁性能强啊- - 不算光追

3070强至少3成

===================
#9 parasite 2021-7-20 21:21
原帖由 卖哥 于 2021-7-20 20:55 发表

3070强至少3成


那我的laptop版满血版3070跟PS5比能强多少?

===================
#10 阿卡 2021-7-20 21:28
当时NVIDIA宣布流处理器数量的时候,所有人都震惊了……这才是最有趣的地方!

===================
#11 achen126 2021-7-20 23:59
posted by wap, platform: Android
30系性能好弱啊!等40系

===================
#12 jinwyp 2021-7-20 23:59
https://zhuanlan.zhihu.com/p/252941017

先来回顾下图灵的SM结构,一个图灵的SM有4个块,每个块有16个FP32和16个INT32。INT32单元是在图灵架构时候引入,是用来处理占比大概1/3的INT32任务。

INT32整数任务虽然占比不高,并且相比FP32浮点运算量不大,但在图灵之前的GPU跑INT32还是要浪费宝贵的FP32单元时钟周期来处理。图灵增加了复杂度不高的INT32单元以后,INT32和FP32就可以并行运行。以古墓丽影暗影为例,之前单纯依靠FP32单元切换任务轮流跑FP32和INT32需要100个周期的任务,现在INT32和FP32并行处理就只需要62个周期。增加简化的INT32单元,就可以在增加成本不多的情况下,解放高复杂度FP32的性能,将其从INT32的琐事中解放出来。

而安培在单个块里,有两组16个FP32和一组16个的INT32,但仅有2个数据通路,其中一组FP32独占一组数据通路,另外一组FP32和INT32共享一组,在共享的一组里FP32和IINT32不能同时执行,只能两者选其一。这样的设计在一个时钟周期内,要不跑16+16个FP32操作,要不跑16个FP32操作+16个INT32操作。



简单理解就是老黄多塞了一倍的FP32浮点计算单元,但对外宣传的是流处理器翻了一倍, 就是投机取巧的宣传方法,很鸡贼!

[ 本帖最后由 jinwyp 于 2021-7-21 00:04 编辑 ]

===================
#13 久多良木健 2021-7-21 00:04
posted by wap, platform: iPhone
原帖由 @parasite 于 2021-7-20 21:21 发表
那我的laptop版满血版3070跟PS5比能强多少?
强不了,固定硬件可以针对硬件本身,做针对优化

===================
#14 rhinoking 2021-7-22 14:30
原帖由 parasite 于 发表于 2021-7-20 21:21 发表
那我的laptop版满血版3070跟PS5比能强多少?
不可能比ps5强的。

===================
#15 xmfhell 2021-7-22 16:32
posted by wap, platform: iPhone
原帖由 @parasite 于 2021-7-20 21:21 发表
那我的laptop版满血版3070跟PS5比能强多少?
性能半斤八两,但是主机有优化 而且笔记本容易降频所以大概率打不过

===================


[登录后才可回复]