跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

benton yiB

benton yi

@benton yi
关于
帖子
15
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 【Uncencored】Sulphur-2免审查图生视频模型一窥
    benton yiB benton yi

    @williamlouis 不知道你指的谁。但是4090肯定跑不了BF16的,可以选FP8量化版

    LLM讨论区

  • 【Uncencored】Sulphur-2免审查图生视频模型一窥
    benton yiB benton yi

    huggingface前两天发布了基于LTX2.3的免审查视频模型sulphur-2,今天下来小玩了一下,不论从视频清晰度、语音音色和物理效果方面,完成度都非常高,推荐玩耍。视频无法发到论坛,而且非常敏感,就不做外链了。如果以后有电报群可以共享一下。
    82a1f760-656a-4ca0-9948-d59c06eb541c-image.jpeg
    模型下载地址:
    https://modelscope.cn/models/hf/SulphurAI-Sulphur-2-base

    LLM讨论区

  • 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡?
    benton yiB benton yi

    fb3aa4a5-1919-4e86-9b4c-8b78fc983f42-image.jpeg
    对了,如果有blackwell架构想要极致省显存想选择NVFP4量化的朋友,别选unsloth的版本(截至5月8号),这个版本没有MTP投机权重文件vLLM下无法开启MTP(SGLang可开因为用的是NextN模块)。下右边这个版本就行。

    AI硬件

  • 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡?
    benton yiB benton yi

    @Dalu-Fama 回你这个显存占用89G的问题,你vLLM启动参数一定没有加 --gpu-memory-utilization 0.50 参数,你不加参数就默认是0.9。划掉你显存的90%给vLLM专用。影响实际显存占用的因素有:
    --gpu-memory-utilization 0.50 \ #预设显存池
    --max-model-len 131072 \ #上下文长度
    --max-num-seqs 2\ #最大并发数
    实际上我就是跑的FP8量化,MTP投机种子设4的时候显存占用也就52G,用来跑BF16的Qwen-Image-Edit也不会oom。

    AI硬件

  • 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡?
    benton yiB benton yi

    这个问题也是我这两天一直在折腾的问题,现在已经初步有了个眉目。先说结论:
    结论是可以,架构是vLLM + qwen3.6-27b-NVFP4(3并行)+ ComfyUI(Qwen-Image-Edit-BF16)
    或者vLLM + qwen3.6-27b-FP8(2并行)+ ComfyUI(Qwen-Image-Edit-FP8)

    我的提示词是这样的:
    我现在要在本地部署vLLM运行qwen3.6-27b来推理Hermes也就是你。在飞书远程工作的同时,还要用到本地的ComfyUI工作流进行文生图或者图改生图,大多是Qwen-Image-2512,少量用到Qwen-Image-Edit,这些模型都在/home/bentonyi/ComfyUI-master/models/unet,你可以自己看。目前的qwen3.6-27b模型情况是有一个NVFP4量化,一个FP8量化。
    以上是具体现状,我的底线要求是:
    1,任何条件下不能触发把KV Cache放到内存里交换让CPU跑的情况;
    2,上下文128k满载、并发2倍冗余以内、mtp种子为4的极端情况下vLLM不得oom;
    3,在qwen3.6-27b和comfyUI工作流并行任务期间,假设一旦出现显存吃紧或者占满,崩溃运行失败的只能是comfyUI,vLLM不得受到任何影响(因为我要远程处理,vLLM和hermes必须在线);
    你给我推荐一个建议运行的qwen3.6模型版本,以及相对应vLLM的运行参数(尤其是留足comfyUI工作显存后的推荐并发上限)

    这是智力密集型的plan类工作,我直接祭出了deepseek-v4-pro连hermes。中间查硬件,查模型,查量化版本以及把量化的详细过程算给我看的过程就省略了,各位可以以自己的实际情况对应的提示词去deepseek在线问。最后hermes给出了最前面的结论。还给我画了显存分配明细:9dea92ef-9a6e-4c42-a4b8-b677f650aad0-image.jpeg │
    而且已经经过底线验证:

    • ✅ 不触发 CPU swap — KV Cache 全在 GPU,48 层 SSM 不吃 KV
    • ✅ 128K × 6 并发 × MTP=3 → KV 24 GiB < 预算 30 GiB,不会 OOM
    • ✅ ComfyUI 先崩 — 它的 43 GiB 上限比 vLLM 的 52 GiB 硬限制先到
    • ✅ MTP=4 对本模型的 KV 影响极小(MTP 只有 1 层额外 full_attn,开销 < 100 MiB)
    • ✅ Qwen-Image-Edit BF16 只在切换使用 FP8 版本时可保平安

    99c13cd8-9b3a-4f9b-ae03-75df379e4f79-image.jpeg
    最后这张图是我的实际测试,显存占用和ds说得几乎一模一样。

    AI硬件

  • 关于Ubuntu部署llama.cpp的一些疑问
    benton yiB benton yi

    @幻獸 思路没问题,我也是linux新手,现阶段99%的问题把运行环境+操作日志+错误反馈直接粘贴给在线大模型都能给出解决办法来。如果它给你绕了弯路你就按老特说的直接开骂就完事。qwen3.6-27b应该是当前100b以内最适合本地IT/Code的模型,相对3.5对指令遵循性做了进一步强化(信息来自在线Qwen Plus)。Q4量化算是甜点程度,确实没啥可挑的。

    LLM讨论区

  • 关于Ubuntu部署llama.cpp的一些疑问
    benton yiB benton yi

    建议用ollama先部署一个本地小模型驱动起Claude code。然后以cc作为你学习Ubuntu的拐杖。它的harness范式绝对是你从新手到进阶甚至成为高手的利器。新手阶段会严格遵循帮你拿着操作日志➕反馈去在线fetch/curl找解方,解决你至少95%的问题。

    学习方法和习惯真的很重要

    LLM讨论区

  • 京东自营上了5090、6000pro,应该怎么选。
    benton yiB benton yi

    @terry 个人认为与其称之为“性能过剩”的说法,不如还是“和需求不匹配”来的恰当。在这里想较个真哈,纯粹是阐述一下剖析底层需求的逻辑方法,如果能帮到硬件选型的朋友也算歪打正着了:
    1,假如像之前想买双DGX Spark的老哥说主要用来跑deepseek-v4-flash辅助写作,那么他需求的吐字速度就是比人眼阅读速度的极限快个2倍就行,因为他是真的要亲自来阅读模型输出的每个字的。他真正迫切的是VRAM要大到能装下聪明(大容量)的脑子,而50tokens/s和400tokens/s对老哥来说其实没有任何差异(心理上更爽带来的提升不算,没有实质命中需求)。
    2,举个自己的例子,我自己跑文生图/图生图是依赖comfyUI工作流(ERNIE或者Qwen-Image)的,通常在草稿阶段需要我根据老婆口述的模糊设计,自己写提示词让工作流生成800x800的样稿,然后给她过目再口述怎么改,我再改提示词如此往复,直到老婆大人满意定稿,我再输出高清图或者作为视频的关键帧再去制作视频。这个改稿的过程少则10几次,多则三四十次,偶尔途中可能还会推翻设计。那么20多秒出图就一定比1分钟出图更有效率,每一秒的提升在我这都是实实在在的。
    3,用来驱动Hermes跑定时任务or处理日杂事务,驱动claude code用来氛围开发或者像我作为操作Linux的中间层(我自己接触Linux起步较晚并不熟练,cc作为一根“Linux拐杖”简直深得我心,非常满意)。这类智能体会根据你布置给它的任务,从它自身的Harness里按范式一步一步尝试解决,虽然是会越来越聪明但那是在至少以周甚至月为尺度的多次复用情况下的。你临时给一个任务平均它就是要尝试10几次甚至二三十次才能搞定的,这种情况下IT(指令遵循)大模型输出的绝大部分内容都不需要你来阅读,纯属Agent<=>ITLLm之间的交互,你就坐等一个成功or失败的结果。这时候不论是prefill(LLM读)还是decode(LLM写),信我的你一定是希望越快越好,你不会希望给claude code说一句“按照上次的方式再重装一次SGLang框架”,1分钟快到了他才刚刚找到之前的memory开始读skills,你一定会Ctrl+C了自己来的。

    情况1就是算力有个保证超过阅读速度的门槛过了就行,往上看VRAM能够到哪个模型就花多少钱,是DGX还是MacStudioUltra256G,甚至10多个收一台512G的跑671B也随你喜欢;
    情况2和3就是Vram有个门槛过了就行,比如只跑qwen3.6-27b-q4_K_M@128kContext,但是速度能跑多快给我跑多快,你就挑大于22G显存(举个例子没具体算)的预算内的最好的gpu就行,能折腾想省钱就amd,不想折腾就nvidia;

    大概率不会跑偏。

    AI硬件

  • 请教:uburntu26.04+7900xtx,comfyui跑不通
    benton yiB benton yi

    这种问题直接把报错内容粘给豆包、gemini、gpt、deepseek,然后对比一下回复你就知道下次该问谁

    AI音视频画图

  • 请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?
    benton yiB benton yi

    [未实测纯体感]各种量化之间的版本,只要不是q2对比bf16这种天花板和地板,我的感觉差别都远没有你精心写一份提示词和一两句话糊弄它来的大。“提示词工程师”是个职业还真不是说笑。

    LLM讨论区

  • 歪个楼,有玩 3D 打印的吗?😀
    benton yiB benton yi

    @terry 不花啊啊啊啊,这不是我的主业,但是我老婆刚需。她就是做各种可爱的形象弄成手作模具,挣女生钱。经常涉及版权,Gemini pro,GPT plus这种都给自己保护得很好,擦一点版权就不给生图,更别提什么HelloKitty,任何迪士尼任天堂相关的…

    随便聊聊

  • 歪个楼,有玩 3D 打印的吗?😀
    benton yiB benton yi

    微信图片_20260507003645_7.jpg
    之前还真的研究过cc通过mcp访问blender建模,但是说实话尝试了三四次之后得出结论就是完全不可用。正经的工作流还是在“文/图生图”阶段尝试和打磨,确定图片之后用混元3D工作流直接以图建模。

    随便聊聊

  • 请教:ASUS Ascent GX10
    benton yiB benton yi

    微信图片_20260506205439_201.jpg

    先说说我的需求:我老婆那边有个成形了的做手作玩具的xhs账号,需要“文/图生图”持续产出可能会有版权纠纷的手作玩具图片,图生视频放到笔记里打造爆款,以及图生建模给到她的上游供应链打印模具。我这边用claude code氛围开发的也有两条线:1是上班时期自己想抽空做的个项目,目前已经出了一版正在迭代;还有一个自制的手游app需求也基本上厘清了也在排队;另外社交网络上也有固定自己设计打造的IP尝试做漫画或动画。所以基本上就是claude code/Trae和ComfyUI是硬需求,另外hermes也在玩票,想看能不能固化一些流程。
    自己原来有一台9950x + 4090 + 192G内存的台式机,运行ComfyUI生图还行,大量生视频确实力不从心。之前也是想过用DGX Spark来搞定ComfyUI和智能体的推理大模型,就在Gemini,GPT和Grok和豆包都问过同样的一组问题。把自己的实际需求和当前已有的设备统统写进提示词,也是很有意思,看各大知名ai在线给我营业:从DGX vs M3Ultra Studio的Studio胜,然后被gemini推荐RTX Pro系列,到又换MacStudio vs RTX Pro5000/6000各大知名ai又给我营业了几轮,大部分是RTX Pro胜。
    然后开始关注这个频道,看完了UP的每期视频和之前老特说的每期视频,下定决心了入的RTX Pro。
    之前在win下面一直用lms试吃,ollama生产(qwen3.6:27b_q8_0上下文256k能到35~38t/s)。系统换到Linux之后ollama确实快了一些。但是在各ai的强烈推荐下,Linux下的生产环境SGLang>vLLM>>llama.cpp>ollama。于是先是尝试docker安装了SGLang,捣鼓了2个晚上装了2次回复都是乱码(后来在论坛发现有人说SGLang框架推理qwen3.6-27b-fp8就是有乱码,要坐等框架更新)。于是开始尝试vLLM,才有了上面的图。运行参数如下:
    vllm serve /home/bentonyi/.cache/modelscope/hub/models/Qwen/Qwen3.6-27B-FP8
    --trust-remote-code
    --quantization fp8
    --max-model-len 262144
    --enable-auto-tool-choice
    --max-num-seqs 32
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":4}'
    --host 0.0.0.0
    --port 8000
    设置猜字的mtp并发为4的时候,有效token速度可以超过400t/s。本地的hermes速度能达到接近之前用minimax2.7新手包套餐的在线速度,终于可用了。
    另:涡轮版本的RTX Pro风扇策略偏静音,不调的情况下工作温度在85~88℃范围。图中的温控工具是LACT,按此设置重度连续工作1小时不会上80℃。

    省流版:用心写一组提示词,把自己的需求现状和担心的点告诉知名ai众,让它们在线给你营业,然后交叉验证各ai的回答,往往能解决90%以上的问题。😁

    AI硬件

  • lms不错
    benton yiB benton yi

    lms是标准的模型“试吃”平台,在这个赛道上确实一骑绝尘。主打gui环境下全方位对比。上手难度“夯”,性能和并行属于“拉完了”一档。

    LLM讨论区

  • 搞机Nvidia DGX Spark(128G 4T),累
    benton yiB benton yi

    @Tide 如果是ubuntu系统,没法选字的情况是在hermes提出危险命令预警,让你选择是否执行之后原生终端会死锁。解决办法是你直接用hermes --yolo运行。

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组