Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
@566656661 说: @rolex-lo 還沒調整好, INT 4估計還能更快 INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓) 2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4
@566656661 说:
@rolex-lo
還沒調整好, INT 4估計還能更快
INT4不會更快, 但是可以運用Autoround配合turboquant 4bit nc 壓榨更多KV Cache 空間 (詳情看22樓)
2張R9700走TP 2用Oculink跟 PCIe 5.0 x8 混合使用估計會出事誒, Oculink只有PCIe 4.0 x4, PCIe 5.0 x8, 結果就是只能走PCIe 4.0 x4
这种情况是推测,还是肯定会发生?
@wml-ai
推測, 但是基於TP自己需要多卡大量交換數據跟處理結果, PCIe的速度成了關鍵
VLLM的文件推薦使用TP的時候最好有類似NVLINK這樣的跨卡高速通道
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗