[Local LLM] 部署本地模型 token 输出万能公式

发布时间：2026-04-20 23:13:33 作者：星辰云IDC编辑阅读：2041

比如看 dgx spark 这台机子，部署 31B BF16 gemma

这台机子的带宽 273 GB/s

31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s

实际能到 3token/s 已经是牛逼 plus ，顶多 2.5token/s

所以有个关系，不要问能不能运行咋的，自己大概算下基本就知道能不能用

简单得推理我觉得至少要到25token/s，看起来才正常

1. 模型必须能加载完，显存只是基本条件

2. 必须要看内存带宽（ Memory Bandwidth ），这个太低得话估计就是个跛子，我看几乎很少有人部署模型时注意这个配置，这个也是非常重要得参数

3. 上面得基本是按照英伟达机子算出来得，mac 机子比较特殊，基本只要能加载到 gpu 里面，剩余一点内存，就能用速度不会很慢（ 20token/s 将就能用），冷启动稍微慢点

还有个本地模型部署，除了花大钱，本地部署就是玩玩可以，起码现在不要妄想超过线上得模型，尤其写代码方面

我个人认为现在本地模型能做得事

希望大家来交流自己得心得，大家共同学习进步

了解更多信息，请访问：服务器托管

标签： [Local LLM] 部署本地模型 token 输出万能公式