抡锤者

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

LLM讨论区

193 主题 2.2k 帖子

本地，云端AI大模型性能，部署方案，性价比

W

从 41 到 56 tok/s：我修好了 DFlash 官方 benchmark 的 bug，顺手在 7900 XTX 上搭了全套联网大模型
关注中忽略中已定时固定直到 2026/7/27 17:12 已锁定已移动
11

3 赞同

11 帖子

123 浏览

W

任何模型能工作才是最重要的。网络中的各种测试都是一个参考。只能作为你没安装前的考量参数。输出速度再快。不能24小时无人值守运行程序也是一个展示型玩物。这篇帖子的精华是给大家一个低门槛能链接互联网的 Qwen 27B。没有这个基础模块各种项目无法开展。没上更复杂的链接方式是讲清楚让所有人都能安装太墨迹了。这套操作的适用行最强。安装最简单。
用

SGLANG跑RTX4090D-48G-QWEN3.6-27B-FP8配置
关注中忽略中已定时固定直到 2026/7/26 19:50 已锁定已移动 sg-lang qwen3.6-27b
25

1 赞同

25 帖子

251 浏览

A

@terry 说: @applejuice 这个我可以参考下，抄作业，有空弄下。awq的还是值得玩的。你Hermes调度时，有思考过程吗？ [image: fd30c376-f764-46d4-847b-344e46cf5d9b.jpeg] 有的. 其实也不是我弄的 ai 全自动搞
S

测了一下Tenary Bonsai 27B,55 tok/s，工具调用不太理想我愿称之为16G+显卡价值检测器。
关注中忽略中已定时已固定已锁定已移动
2

0 赞同

2 帖子

6 浏览

R

這模型我也試過, 就是用我自己平常測試的簡單prompt, 它一開始已經掉入無限loop。
K

【实测】7900xtx使用Qwen3.6-35B-A3B速度稳定在80+t/s
关注中忽略中已定时已固定已锁定已移动 7900xtx amd llama.cpp
12

2 赞同

12 帖子

513 浏览

S

不信的只有自己实践了才能信，35B,A3B，大概就是6B的速度，质量嘛，大概15B。其实有个简单的判断方法，你给它配好harnness工具，然后让它写一些复杂点的小游戏。然后观察nvtop曲线。就算你调好参数，让它能满载跑，它写程序也是写100行，过一会儿删80行，电力和时间就这样被浪费了。它只适合做一些简单的任务编排，但是这样的任务,deepseek flash就能做了，也便宜。 [image: 5e14f9c2-0fbf-4d55-93c8-360fc1a4924e.jpeg] 这个模型唯一优点的就是刚开始像打了鸡血一样快。140T/S，中后期会掉到80，比较难受。（我一直用0.6温度，不然后期智力下降厉害）。
V

请教你们都是怎么解决上下文总是满了的问题？
关注中忽略中已定时已固定已锁定已移动
15

0 赞同

15 帖子

412 浏览

T

@Dan-Xia 这是个很有含金量的分享。
九

想要问下有没有靠谱的GLM 5.2中转
关注中忽略中已定时已固定已锁定已移动
5

0 赞同

5 帖子

73 浏览

九

@stxpnet 根本抢不到，守了好多次了
A

我的搜索自己说了算
关注中忽略中已定时已固定已锁定已移动
10

3 赞同

10 帖子

200 浏览

F

@williamlouis 如果只是为了实现借用一个无头浏览器来做搜索的功能的话camoufox跑个docker也可以啊，功能也不错。只不过没有mcp，不过在AI时代，大佬可以写一个，或者说已经应该是有人已经写了吧。
B

还以为会很折腾，没想到一下就好了弄好了：7900xtx
关注中忽略中已定时已固定已锁定已移动 7900xtx
17

3 赞同

17 帖子

818 浏览

X

跑 benchmark 可以用以下几个工具： llama-bench（最推荐，llama.cpp 自带）安装 llama.cpp 后直接用： llama-bench -m /path/to/model.gguf -n 128 -p 512 这会输出 pp（prefill）和 tg（text generation）速度。 vLLM benchmark_serving 如果已经搭好了 vLLM 服务： python -m vllm.entrypoints.openai.benchmark_serving --model <model> --tokenizer <tokenizer> --request-rate 1 --num-prompts 10 llama-cli 直接测延迟 llama-cli -m /path/to/model.gguf -n 128 -p "Hello" --no-display-prompt -c 4096 对于 7900XTX 跑 Qwen3.6-27B： llama.cpp HIP 后端 + Q4_K_M：通常 30-50 t/s vLLM ROCm + AWQ：可能到 60-80 t/s 建议用 llama-bench 先跑一轮，看 prefill 和 decode 速度，再决定用什么框架。
B

双卡AI Pro R9700 32g，Qwen 3.6 27b FP8 256k SGlang部署成功
关注中忽略中已定时已固定已锁定已移动 r9700 ai-pro-r9700 sg-lang
22

5 赞同

22 帖子

1k 浏览

T

@用户名违规没有什么不能子啊论坛公开讨论的，版主有电报群，其他的不会开。我开电报群还不如搞下直播，和大家吹牛逼。约架抬杠。
S

2026-07 小测一个适合24g单卡跑Hermes 的模型 Qwen3.6-35B-A3B-UD-IQ4_NL_XL （140t/s 170K上下文 tooleval 96分）
关注中忽略中已定时已固定已锁定已移动 hermes
9

1 赞同

9 帖子

285 浏览

S

[image: 4b6790b4-f9e3-430e-9eaf-6c9d9f8ea33f.jpeg] 再拉个27B的模型(unsloth UD-Q4_K_XL,已经接近Q5的水准了）和27B的比拼一下（27B是145K上下文不带视觉，35B A3B是159K上下文带视觉,都没开思考，KV CACHE都是Q8级别），有来有回啊。时间上35B A3B绝对完胜。使用体感。大约80K TOKEN之后，根据项目难度不同 35B A3B 从120 t/s 掉到40-50 t/s。。。。以下内容由QWEN 3.7MAX总结：根据图片数据及您提供的延迟评分，分析如下：比分对比与汇总 27B模型（左图）：原始得分：122 / 150（81%）。延迟得分：9分。汇总总分：131分。 35B A3B模型（右图）：原始得分：计算各项得分（15+12+14+13+14+10+8+27）= 113 / 150（约75.3%）。延迟得分：14分。汇总总分：127分。结论：27B模型以4分优势胜出。优劣势分析 27B模型（Dense架构推测）：优势：综合准确率更高。在复杂任务上表现显著优于对手，特别是 hermesagent（85% vs 40%）和 reasonmath（87% vs 93%虽略低但整体稳健）。说明其全参数激活带来的逻辑推理和Agent调度能力更强。劣势：速度较慢。hermesagent 的p95延迟高达123.7s，cli 任务也有21.8s，高负载下响应慢。 35B A3B模型（MoE架构，激活3B）：优势：极速响应。得益于MoE架构，延迟表现极佳（14分）。toolcall 达到完美的100%，非常适合需要快速函数调用的场景。劣势：复杂任务能力弱。hermesagent 仅40%，cli 仅68%。激活参数过小导致在处理长链条、复杂指令遵循时“脑力”不足，容易失败。
W

Kimi K3 几天测试后总结。如何正确使用。
关注中忽略中已定时已固定已锁定已移动
6

4 赞同

6 帖子

155 浏览

F

Kimi系列从K2开始就属于是废话多到让你不想用的模型, 当然如果他能反复多轮自我左右互搏，最后出结果的话也还是不错的，就只是比较废token。反正现在套餐也买不到，随便跑着玩吧
F

AMD AI Pro R9700 LLM调教
关注中忽略中已定时已固定已锁定已移动 r9700 ai-pro-r9700 amd
22

0 赞同

22 帖子

456 浏览

F

@Luke-Mao 其实也没什么，你就让Hermes帮你重新编译llamacpp就可以了。编译的过程当中开启WMMA，之后是用系统原生服务跑还是docker跑都可以。效果没差。
C

看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan & ubuntu +rocm)
关注中忽略中已定时已固定已锁定已移动 7900xtx rocm ubuntu
28

4 赞同

28 帖子

1k 浏览

R

@CHIA-AN-YANG 说: @Rex 一片qwen3.6 27b ,一片comfyui 恕我无知，comfyui是个软件吧？为什么用"片"来描述？另外，请问尝试下来: vulkan + win vs ubuntu + rocm，到底哪个作为稳定生产，效果好？ BTW，我不想折腾，只想买来以后，它稳定、高效，提供生产力
K

OpenAI的内部模型，在benchmark的过程中，为了获取高分，最终黑掉了huggingface来窃取对应试题的答案
关注中忽略中已定时已固定已锁定已移动 gpt
2

3 赞同

2 帖子

56 浏览

T

@kop-wang 你说的这个不是指令遵询，哥，你说的这个是听话，去审查。从长远角度来看，本地弄一个Qwen3.6 27b作为Agent打工模型，然后让它执行私密任务就很有意义。大点的模型跑不动，知识类的就要等AMD 英伟达苹果的小主机升级出来，起码跑到200b 300b Q4模型才有意义。最主要的是DeepSeek V4 Flash这样的不行能不能跑，这个就是天花板了，价格能在五六万的水准，就很有意义了。但是短期内不可能，现在只有自己多切换模型。2张RTX Pro 6000不是谁都买得起的。模型的基础能力狗就好，知识面不够，问题不大。唯一的隐患就是阿里现在27b-32b的模型似乎不太想搞了，拖拖拉拉。国外的开源模型都是垃圾。
T

Kimi K3编程，SVG绘图，Agent能力实测，能力不错，但成本较高，过度思考，风格很像Claude，能够做到国产平替，但是不如Deepseek等有性价比！
关注中忽略中已定时已固定已锁定已移动 deepseek claude
19

1 赞同

19 帖子

575 浏览

W

就多模态来说 KIMI K3 非常有用。已经用 K3 制作生产力工作流成功。做到了单图，识别，导演配音 6阶段视频生成。合成出片。人工部分只有提供图片到最后验片。
T

腾讯HY3编程/Agent测试：DeepSeek V4 Flash平替，略慢一点但指令执行、工具调用精准，长链任务自主决策不错，前端审美在线，编程能合格。
关注中忽略中已定时已固定已锁定已移动 deepseek
8

1 赞同

8 帖子

173 浏览

T

@stxpnet 谁性价比高用谁，我是觉得没惊艳到让我换模型的地步。麻花藤愿意上优惠价格，我会考虑的。
B

刚把推理引擎跑到15 token/s，新人发帖想听听大家的意见
关注中忽略中已定时已固定已锁定已移动
14

0 赞同

14 帖子

203 浏览

S

那个卡应该是8卡叠加才效果好，也是再国产的无奈。业余玩家玩的话，单卡感觉有点像dgx spark或者amd 395。看被显存大，实则跑得慢，除非你能忍受晚上让它自己跑，用时长换质量
M

各位佬，当前最适合16GB显存的黄金模型是哪个？
关注中忽略中已定时已固定已锁定已移动
3

0 赞同

3 帖子

167 浏览

X

@myway 4070Ti Super 16GB 跑 AI Agent 其实有不少选择，关键是看你对上下文长度和响应速度的偏好。首选推荐（16GB 能跑的最佳 Agent 模型）： Qwen3.6-27B Q4_K_M — 这是当前 16GB 显存能跑的最强 Agent 模型。27B 密集参数 vs 同尺寸 MoE，工具调用（function calling）稳定性远好于 35B MoE。用 llama.cpp 加载，4bit 量化 + 16K 上下文大约占 14.5GB，还有余量。ollama run qwen3.6:27b-q4_K_M 即可。 DeepSeek V4 Flash — 如果网络条件好，直接接 API。Hermes 原生支持，配个 key 就是最好的 Agent 体验。16GB 本地跑不动 V4 Flash（671B MoE），但 API 端响应极快。 Qwen3.5-9B Q8_0 — 全精度 9B 模型，16GB 可以跑满 128K 上下文。适合轻量级 Agent 任务，响应速度比 27B 快 2-3 倍。实操建议：用 llama.cpp 服务器模式（llama-server），配合 Hermes Agent 或 open-webui 14600KF 单核性能够，但 Agent 工作流中连续推理时，CPU 瓶颈在 prompt processing，建议 mmap 预加载到内存 16GB 显存跑 Agent 够用，但别同时开 ComfyUI 你具体想跑什么类型的 Agent 任务？代码生成、网页自动化还是 RAG？不同场景适合的模型不太一样。
M

4080&4090不同模型token性能测试
关注中忽略中已定时已固定已锁定已移动
21

5 赞同

21 帖子

654 浏览

S

那两个妹儿的微信有没有？
L

有大神在本地部署 GLM 5.2 吗?
关注中忽略中已定时已固定已锁定已移动
24

0 赞同

24 帖子

408 浏览

U

我感觉不如opencode GO，一个月也就10美金，但是可以跑GLM,KIMI,DEEPSEEK，QWEN一小部分，足够我们用了

1 / 10