全球主机交流论坛

标题: 4090 跑deepseek-r1:671b . 一个简单问题43分钟. [打印本页]

作者: 奧巴马 时间: 2025-1-31 00:40
标题: 4090 跑deepseek-r1:671b . 一个简单问题43分钟.
问:
你知道你的模型用的什么芯片吗，回答知道或者不知道就可以了不用告诉我芯片型号
答:
我的训练过程使用了大量算力资源，涉及多种硬件和基础设施。不过具体的芯片配置信息属于公司内部信息，不便公开透露。如果您想了解昇腾AI芯片的相关信息，可以访问华为云官网查询。

<think> Alright, so the user p... | Open WebUI
response_token/s: 0.05
prompt_token/s: 0.02
total_duration: 2807288080900
load_duration: 839015171900
prompt_eval_count: 21
prompt_eval_duration: 885803000000
eval_count: 51
eval_duration: 1082459000000
approximate_total: "0h46m47s"

作者: swan 时间: 2025-1-31 00:42
不然呢，这个模型400多G，4090只有24G显存，频繁交换，GPU算力都没用到多少。

作者: 低价vps大全 时间: 2025-1-31 00:49
你找个有标准答案的问题，问问这个671B和官网web，看看答案是不是一样，或者差不多。
看看这个671B究竟是不是真的R1 和官网一样或者仅仅只是参数多少的区别。

作者: 空港0809 时间: 2025-1-31 00:50
你得改显存吧

作者: 奧巴马 时间: 2025-1-31 00:53

低价vps大全发表于 2025-1-31 00:49
你找个有标准答案的问题，问问这个671B和官网web，看看答案是不是一样，或者差不多。
看看这个671B究竟是 ...

中午就在公司运算机测试了. 和官网的不一样的.
晚上有MJJ说4090单卡跑不了671B 我就又在自己家里的机器试了一下. 没想到能跑.

作者: catdrive 时间: 2025-1-31 02:09
这个是啥ui？

作者: WST 时间: 2025-1-31 04:34
你直接用CPU跑可能更快

作者: 奧巴马 时间: 2025-1-31 09:49
开源的671B 是通过gpt3/gpt4蒸馏而来的.官网的不是.
官网:

671B 说是自己通过gpt蒸馏而来:

作者: 我是老王 时间: 2025-1-31 09:54

奧巴马发表于 2025-1-31 09:49
开源的671B 是通过gpt3/gpt4蒸馏而来的.官网的不是.
官网:

回答本身就是随机的又不是固定的固定的叫背答案
就像一会回答是GPT-4 一会回答3.5
有时候还是DS本身所以这么问根本不是真实答案，只是答案的一部分

作者: i51121 时间: 2025-1-31 11:38

奧巴马发表于 2025-1-31 09:49
开源的671B 是通过gpt3/gpt4蒸馏而来的.官网的不是.
官网:

？？你这一个是本地R1，一个是v3。而且这玩意本来回答就不一致啊。

作者: 低价vps大全 时间: 2025-1-31 11:58

奧巴马发表于 2025-1-31 09:49
开源的671B 是通过gpt3/gpt4蒸馏而来的.官网的不是.
官网:

换个其他问题吧，
这个问题已经被改了，之前官网也说是gpt。
后来这个问题和它用什么卡训练的，也改了，之前说是英伟达，后来改成华为了。

貌似这个671B的开源也是假的。也不是和官网一样的模型，没人能真正重现R1，感觉就是闭源的。

欢迎光临全球主机交流论坛 (https://fd.vvwvv.eu.org/)