抡锤者

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

P

macbookpro M3max 128G 8T怎么折腾玩本地AI？
关注中忽略中已定时已固定已锁定已移动 AI硬件 mac
19

0 赞同

19 帖子

403 浏览

T

@Phuong-Ngo 你去抄那几个xtx大神的帖子，人家优化的很好。comfyUI可以发帖提问，我量产过，这张卡肯定没问题，主要工作流都可以。
菠

被迫放弃了Claude Code，我应该选择什么样的工具？求大佬指点。
关注中忽略中已定时已固定已锁定已移动 AI Agent
19

0 赞同

19 帖子

377 浏览

M

@laoma2026 没有情绪价值, 只有理性购买, 只有讨论技术. 其他不考虑.
F

4 X L20 部署本地模型，求大神指点
关注中忽略中已定时已固定已锁定已移动 LLM讨论区 nvidia l20 multi-gpu
19

1 赞同

19 帖子

341 浏览

F

GPU: 4× NVIDIA L20 (48GB each, Ada Lovelace, sm_89) CPU: 4× L20 = 192GB 总显存 (用了 33GB / 18%) RAM: 251GB 存储: /home 2.5TB 可用驱动: NVIDIA 550.54.14 OS: CentOS 7.9 Model: Qwen3.6-27B-FP8 (基础架构 qwen3_5_text, hybrid GatedDeltaNet) 架构: 64 层, 5120 hidden, 24 attention heads, 4 KV heads 注意力: 16 × (3× GatedDeltaNet + 1× Gated Attention) (3:1 比例) MTP: 1 个 MTP 头 (multi-token prediction) 训练 ctx: 262,144 (256K) 量化: Q5_K_XL (Unsloth Dynamic 2.0) 文件: /home/models/qwen3-27b-mtp-gguf/Qwen3.6-27B-UD-Q5_K_XL.gguf 大小: 19.0 GB GGUF源: unsloth/Qwen3.6-27B-MTP-GGUF 主机 mkdir -p /tmp/llama-build/host-out cd /tmp/llama-build && git clone --depth 1 https://github.com/ggml-org/llama.cpp.git 构建脚本（必须放在源码树内，容器才能看到） cat > /tmp/llama-build/llama.cpp/build-wrapper.sh <<'EOF' #!/bin/bash exec >/tmp/build-out/build.log 2>&1 set -e apt-get update -qq apt-get install -y -qq cmake build-essential git ninja-build cd /src/llama.cpp rm -rf build cmake -B build -G Ninja -DGGML_CUDA=ON -DCMAKE_BUILD_TYPE=Release -DCMAKE_CUDA_ARCHITECTURES='89' -DGGML_NATIVE=OFF -DGGML_CUDA_F16=ON -DGGML_RPC=OFF -DBUILD_SHARED_LIBS=OFF cmake --build build -j$(nproc) --target llama-server llama-cli llama-quantize EOF chmod +x /tmp/llama-build/llama.cpp/build-wrapper.sh docker run -d --name llama-cpp-build -v /tmp/llama-build/llama.cpp:/src/llama.cpp -v /tmp/llama-build/host-out:/tmp/build-out -w /src/llama.cpp nvidia/cuda:12.4.0-devel-ubuntu22.04 bash /src/llama.cpp/build-wrapper.sh mkdir -p /home/models/qwen3-27b-mtp-gguf nohup bash -c ' curl -L --fail --retry 5 -o /home/models/qwen3-27b-mtp-gguf/Qwen3.6-27B-UD-Q5_K_XL.gguf "https://hf-mirror.com/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-UD-Q5_K_XL.gguf" ' > /tmp/gguf-dl.log 2>&1 & === 模型 === -m /models/Qwen3.6-27B-UD-Q5_K_XL.gguf === 服务 === --host 0.0.0.0 --port 8003 --api-key 7cd5aace-734d-4223-813c-2406506c4b0a === 上下文（256K 完整原生）=== -c 262144 -ngl 999 # 所有层上 GPU === 多 GPU 切分（2×L20）=== --split-mode layer # 按层切分 --tensor-split 0.5,0.5 # GPU 2+3 各 50% --main-gpu 0 # 主 GPU（相对 0 = 物理 GPU 2） === 并发 === --parallel 2 # 2 路并发 --kv-unified # ️ 关键：共享 KV 池 --cont-batching # 连续批处理 === KV 量化（节省 50% 显存）=== --cache-type-k q8_0 --cache-type-v q8_0 === MTP 投机解码（1.7-2× 加速）=== --spec-type draft-mtp # ️ 关键 --spec-draft-n-max 3 # 草稿 3 token --draft-p-min 0.85 # 接受阈值 === 性能优化 === --flash-attn auto # Flash Attention --no-mmap --mlock # 不 mmap，锁内存 --batch-size 512 --ubatch-size 128 === 采样 === --top-p 0.95 --top-k 20 --temp 0.7 --repeat-penalty 1.0 === 模板 === --jinja --chat-template-kwargs '{"enable_thinking":false}' --reasoning off 结论 vLLM 7.5 TPS 是 L20 + Qwen3-27B-FP8 物理上限（之前我们认为无法突破）。 llama.cpp + MTP 投机解码在相同硬件上达到 50 TPS（平均）/ 80 TPS（峰值），6.7-10.7× 加速，且能跑 256K 完整原生上下文 + 2 路并发，显存只用 33GB。关键启示：vLLM 框架本身在 hybrid Mamba/GDN 模型上有性能瓶颈（vLLM 0.5.x 测速 7.5 TPS，0.20.1 测速 7.45 TPS，几乎一样）。要突破必须换底层框架 — llama.cpp + MTP speculative decoding 是当前唯一现实路径。
W

版主7900XTX 24G 蓝宝石白金版折腾日记。折腾过程从入手到成功全过程。部分版主个人开发架构分享。
关注中忽略中已定时已固定已锁定已移动 AI硬件
19

4 赞同

19 帖子

801 浏览

W

[image: 2cc0d759-b112-47c9-9748-74e7630b21e0.jpeg] 测试了下谷歌的 gemma 4-12B .上下文可以跑256K 。我设置的128K。速度55-62t/s 。随上下文增加速度会明显下降。智力测试 7/10.主要问题：编码能力不过关。解释不了就会跳过给结果。经典测试下八卦网页制作。在我给了参考图片后还是非常的LOW [image: 40cdcb52-28a2-4056-8b6c-33d4da9554aa.jpeg] [image: 7ba84e47-8502-43bd-be5a-32487c708aea.jpeg] 总结：可以识别图片。但是效果可以说是完全不着边。没什么深度探讨价值的模型。
V

部署llm用于写代码，构建本地项目
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
19

0 赞同

19 帖子

409 浏览

V

@王一民最低Q4以下的不要尝试，问题太多，我踩过坑。
C

R9700 Proxmox VE 懶人部署兩週運行心得
关注中忽略中已定时已固定已锁定已移动 AI硬件
19

6 赞同

19 帖子

795 浏览

C

CS6 说: 成本大概台幣 13萬上下.... @nano 今天剛買 96G ram ... 增加4萬，
毅

求教，为什么我的3090跑Qwen3.6 27B，没有丝滑感，搭配codex编程只有不到30tokey/s
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
18

0 赞同

18 帖子

300 浏览

毅

@stxpnet 感谢提醒。马上设置
D

请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡？
关注中忽略中已定时已固定已锁定已移动随便聊聊
18

0 赞同

18 帖子

433 浏览

?

VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server --model /models/qwen/Qwen3.6-27B-FP8 --trust-remote-code --max-model-len 102400 --kv-cache-dtype fp8_e4m3 --gpu-memory-utilization 0.55 --enable-chunked-prefill --enable-prefix-caching --max-num-batched-tokens 8192 --max-num-seqs 2 --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}' --served-model-name "Qwen-27B-FP8" --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --host 0.0.0.0 --port 8000 [image: f848e14d-f6a8-4b07-bc00-ae5226fce67c.jpeg] 我用的这个参数，然后comfyui做的生成视频工作流，研究了一晚上暂时没有崩过，comfyui跑起来的额时候能到40GB左右的样子通常不会超过40GB。vllm我之前设置的0.58也不会崩，后面为了保险降到了0.55；不过我这是100K上下文，暂时就我一个人在用。不清楚如果后面有并发了会不会崩。
G

请教大神，如何让Hermes可以群聊？
关注中忽略中已定时已固定已锁定已移动 AI Agent
18

1 赞同

18 帖子

374 浏览

K

@williamlouis 好的謝謝大大分享假如未來有需要客製化的情況我再試試蒸餾
平

Vide coding 鉴赏大会
关注中忽略中已定时已固定已锁定已移动 AI Agent
18

0 赞同

18 帖子

456 浏览

平

@搬砖好开心 666
幻

【求建议】我想用一台老电脑里的 AI 远程管我的 Ubuntu 主力机，怎么弄最简单？
关注中忽略中已定时已固定已锁定已移动 AI Agent
18

0 赞同

18 帖子

168 浏览

幻

@mraksugar 感谢大佬指点，目前wol功能已经搞定了，后面的需求还在研究
B

我有个关于hermes使用本地显卡和模型的疑问
关注中忽略中已定时已固定已锁定已移动 AI硬件
18

0 赞同

18 帖子

552 浏览

5

@bily-j MTP的話應該不是導致模型陷入Thinking Loop的主因但是我覺得Tool use配合MTP (尤其大或等於3的情況下) 一齊用才容易導致, 因為Tool use涉及大量Json形式的structured output跟XML, 這裡Prediction太激進的話很容易翻車
B

编剧从业部署AI，求助！
关注中忽略中已定时已固定已锁定已移动 AI硬件
18

2 赞同

18 帖子

200 浏览

T

@Bukong-Li 说: @terry 剧本写作需要多轮复杂对话，可能涉及几十万字的长文本记忆。线上模型我试过Gemini，claud，gpt。免费版对话几句就没token了。付费版我没试，但是感觉也不会够用吧。另外，想做rag是想沉淀自己的写作风格，让ai能从自己放进rag的资料进行有控制的生成。rag不只是剧本，可能有小说，编剧工具书等。可能放进去几千部电影剧本，不同题材会分类。人物性格，人物关系等。所以做rag没必要吗？ 730xd对3090，4090具体哪里支持不够呢？我是想先给730配个显卡，做文字剧本生成。后期生视频在升级整体硬件。不知道行不行。还是说直接升级硬件？ 1, 公开的知识没有太大必要放在RAG里, 在线大模型只要参数够多, 他们基本都能覆盖. 你自己的笔记, 灵感等放在RAG里有意义. 2, RAG每次只能召回相关的一部分内容, 适合你搜索分析总结等, 对你的创作肯定有帮助, 但它没法帮你保持你整个剧本的长期记忆. 3, 如果想沉淀自己的写作风格, 可以用自己的文本去训练一个LORA. 这个是 @terry 教我的, 文本LORA我没训练过, 我只训练过视觉的LORA. 4, 多轮对话和上下文的控制, 可能需要一些技巧. 比如你不要通过一次性的多轮对话来生成全部内容. 而是通过设置好整个背景设定+已经写出的所有内容, 来生成一段新的内容, 这段内容稍微短一些, 比如一章, 比如 4096个token. 然后针对这段内容进行多轮对话修改. 满意之后再开始新对话进行下一轮, 新对话还要包括全部背景设定和已经生成的内容, 这样它不会忘记. ---- 这一段是我的想象, 我没有做过长篇内容的生成, 不过我觉得是有优化空间的.因为你的剧本预计全部只有3万字, 每次全部内容加载, 再加上一段4096 tokens 的多轮滚动, 256k上下文我觉得应该是够用的. 5, 没有隐私内容的话, 还是建议购买在线大模型试一下, 在线大模型很多都支持1M以上的上下文.
T

不买硬件，深入测试Comfy UI的一种方法😁
关注中忽略中已定时已固定已锁定已移动 AI音视频画图
18

0 赞同

18 帖子

411 浏览

?

原来还可以租的啊，去了解一下
八

大佬求教一下有没有比deepseek官方还便宜的api吗？
关注中忽略中已定时已固定已锁定已移动随便聊聊
18

0 赞同

18 帖子

174 浏览

G

我只分享我的感受，deep是国内最实惠的。deep官方对话平台白嫖的都很好了，调用API更没得说，如果想看图，可以订阅一个小额的MiniMax，作为图片辅助，（只能辅助,因为MiniMax其他功能都是白痴）主要的还是deep,其他的kimi,国外的manus,等等Angent,都有白嫖额度，蹭蹭也不错，让它们帮你干一部分，再上Api用deep跑
冲

新手小白求助大神指点
关注中忽略中已定时已固定已锁定已移动 AI硬件
18

0 赞同

18 帖子

148 浏览

J

@mei-li 3090就没有不是二手的卡，而且绝大多数都是矿卡改的。但是我还是买的3090
C

4080S 32G 魔改版 vast.ai 租借心得
关注中忽略中已定时已固定已锁定已移动 AI硬件
18

2 赞同

18 帖子

572 浏览

L

@applejuice 很实用的工具，可以配置本地用吗？
艷

「疑问」这样子的温度不会有问题吗？
关注中忽略中已定时已固定已锁定已移动 AI硬件
18

0 赞同

18 帖子

113 浏览

W

@艷陽天没搞过。新上网找找视频。了解了在。开工。不说所有的散热垫都一样。还有硅脂。差距很大。建议预算100-200间。别在散热上吝啬。换一次要跑好久。可能直接显卡干到退休。
B

【Uncencored】Sulphur-2免审查图生视频模型一窥
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
18

3 赞同

18 帖子

626 浏览

Q

@koala 测了。。7900xtx 跑不了直接卡死
M

4080&4090不同模型token性能测试
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
18

5 赞同

18 帖子

529 浏览

D

@Michael-Zhou 哈，我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4，暂时使用也是稳定，速度还不错。我4080S32G。简单爆测结果： Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER | 指标 | 数值 | |------------------------|----------------------------------------------| | 吐字速度 | ~56 tok/s | | 包含 thinking 推理 | 544 tokens / 9.6s | | 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning] |