x99服务器配双3070-8g qwen3.6-35B-A3B 50tk/s-200k上下文-多模态

lannykov

结果有些意外，没想到“废卡”还能派上用场。特别是生成速度、上下文窗口、多模态，以及低得吓人的功耗

lannykov

有换两块3080 20g的冲动了，哈哈。
当时这个设备为了跑好两块3070还专门换了riser-3:Riser 3 Alternate (GPU版)，从亚马逊专门买的，所以两块都是pcie 3.0-x16的满速。另外一块riser-2默认是pcie3.0-x16,不需要折腾。
机架式服务器原装货，风扇可调，噪声可以接受，还是有潜力挖一挖的。

深圳律师陈扬波

我有一张3070m魔改16g，能否将你的参数给我？

lannykov

@深圳律师陈扬波 llama-server
-m Qwen3.6-35B-A3B-APEX-MTP-I-Compact.gguf
--mmproj mmproj-F16.gguf
-c 204800 \ # 200K上下文
--n-cpu-moe 32 \ # MoE专家权重CPU卸载(32线程)
--spec-type draft-mtp \ # MTP投机解码
--reasoning off \ # 禁用Think模式
--jinja \ # Jinja模板
-ngl 99 \ # GPU层全卸载
-ts 4,1 \ # 线程调度
-np 1 \ # 并行解码1
--port 8081
--host 0.0.0.0

terry

@lannykov 连律师都玩AI了？太可怕了。

terry

@深圳律师陈扬波律师都开始玩AI了？太可怕了。

深圳律师陈扬波

AI将成为最正义的法官

深圳律师陈扬波

@terry 说:

@深圳律师陈扬波律师都开始玩AI了？太可怕了。

现在的用AI的律师，就像40年前电算化的会计

深圳律师陈扬波

@lannykov 说:

@深圳律师陈扬波 llama-server
-m Qwen3.6-35B-A3B-APEX-MTP-I-Compact.gguf
--mmproj mmproj-F16.gguf
-c 204800 \ # 200K上下文
--n-cpu-moe 32 \ # MoE专家权重CPU卸载(32线程)
--spec-type draft-mtp \ # MTP投机解码
--reasoning off \ # 禁用Think模式
--jinja \ # Jinja模板
-ngl 99 \ # GPU层全卸载
-ts 4,1 \ # 线程调度
-np 1 \ # 并行解码1
--port 8081
--host 0.0.0.0

谢谢。愉快地抄作业。

深圳律师陈扬波

x99,e5 2673v3,4x16g1333,3070m20g抄作业报告

抡锤者

x99服务器配双3070-8g qwen3.6-35B-A3B 50tk/s-200k上下文-多模态