抡锤者

t68823878

@terry 主要还是文件图片共享这些相对麻烦一点

t68823878

想请教一下，所谓的适配一塌糊涂，是完全跑不起来还是说跑起来很慢，或者说很多节点不能用？

t68823878

@terry 等六一的时候我也申请一下看看有没有机会，主要是现在只有论坛的话交流还是不全面，如果有聊天软件补全交流通道的话就会好很多，毕竟是及时性的。

t68823878

@sirwang 技术交流嘛，互相学习还是可以的。

t68823878

我最近在改进infinitetalk无限时长代码，提高生图效率，后续可提供这方面的技术服务；
同时我还能够提供谷歌苹果资金结算服务，资金不经过第三方直接进入你的银行账户，我负责银行和外管局的审核申报合规化等相关工作，不限单笔和总共的额度，就是说不占用个人5W美元的额度，这个可以和老特看看有没有合作的点。

t68823878

找个风扇吹一下就好，最好是能够照顾到电源接口。反正我之前都是600W满功耗跑了好几晚上，确实是比较烫的。
所以后面我准备弄两个额外的风扇对着吹，这样应该就很保险了。

t68823878

VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server
--model /models/qwen/Qwen3.6-27B-FP8
--trust-remote-code
--max-model-len 102400
--kv-cache-dtype fp8_e4m3
--gpu-memory-utilization 0.55
--enable-chunked-prefill
--enable-prefix-caching
--max-num-batched-tokens 8192
--max-num-seqs 2
--speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
--served-model-name "Qwen-27B-FP8"
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--host 0.0.0.0
--port 8000

我用的这个参数，然后comfyui做的生成视频工作流，研究了一晚上暂时没有崩过，comfyui跑起来的额时候能到40GB左右的样子通常不会超过40GB。vllm我之前设置的0.58也不会崩，后面为了保险降到了0.55；不过我这是100K上下文，暂时就我一个人在用。
不清楚如果后面有并发了会不会崩。

t68823878

VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server
--model /models/qwen/Qwen3.6-27B-FP8
--trust-remote-code
--max-model-len 131072
--kv-cache-dtype fp8_e4m3
--gpu-memory-utilization 0.58
--enable-chunked-prefill
--enable-prefix-caching
--max-num-batched-tokens 8192
--max-num-seqs 2
--speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
--served-model-name "Qwen-27B-FP8"
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--host 0.0.0.0
--port 8000

半晚上研究，转向使用官方FP8模型，开启MTP，预测3字，基本上能够在90tk的速度。保证基础运行的情况下能够余下40GB左右的空间来搞comfyui，接下来就是继续研究怎么弄comfyui了。
或者说是先研究hermes，然后让他帮我搞定comfyui，有没有大神给点建议？

t68823878

@Fred 因为还要留显存跑comfyui做音视频，而且我看网上说BLACKWELL架构跑NVFP4和FP8精度是差不多的，速度上还有一定优势，所以就用了NVFP4，后面我看看FP8精度的情况下能够跑到多少速度。

t68823878

docker run --gpus all -it --rm --ipc=host --net=host
-v /home/yangxu/models:/models
nvcr.io/nvidia/vllm:26.04-py3
python3 -m vllm.entrypoints.openai.api_server
--model /models/unsloth/Qwen3.6-27B-NVFP4
--trust-remote-code
--max-model-len 200000
--kv-cache-dtype fp8
--gpu-memory-utilization 0.58
--enable-chunked-prefill
--enable-prefix-caching
--max-num-batched-tokens 32768
--max-num-seqs 4
--served-model-name "Blackwell-Qwen-27B"
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--host 0.0.0.0
--port 8000

以上是用VLLM跑的参数，用的RTX PRO 6000跑unsloth/Qwen3.6-27B-NVFP4，为什么感觉速度比较慢呢？还是说这个49每秒都算是正常速度了？还望大神指导

t68823878

@terry 做顺了就不存在累的问题了，都能流程化了，加上现在AI的协助，比以往还是要轻松很多了。

t68823878

@y2k 哈哈，不存在的，我也不知道老特做的什么方向；主要是中文频道竞争相对比较激烈，英文好干一些。我看了大量的中文博主收益情况，都不算高。

t68823878

@Tony-Wang 油猴需要先保存到自己网盘然后才可以下载，就是说还是需要登陆

t68823878

微信可以扫描登入，登入之后可以跳过录入手机号，但是我不知道微信在海外是不是必须要有手机号；

t68823878

我想要建立一个英语频道，想要问一下中英文翻译应该怎么弄比较好？

1、中翻英用什么工具比较好？是否直接用在线AI比较方便，哪个AI的中翻英最适合国外观众的常规交流；

2、翻译后如何进行校对，是否需要多个工具之间交叉校对，最终再进行人工审核；

3、对于使用AI翻译或者生成的稿件，应该怎么进行AI查重，避免被油管定为低价值内容；

4、英文生成语音有没有推荐的语音模型；

以上几个问题还请各位有经验的大神指导一下

t68823878

@terry 有道理，其实再配置好一台RTX PRO 6000的AI服务器就能搞定所有工作了。

t68823878

@Tony-Wang 一般还在家办公和娱乐，外出办公的时间基本上可以忽略不记了，所以搞了5080的办公机；然后我comfyui生成音视频大概是40G的显存占用，这样看来还是老特的方案相对合适一点，后面如果还卡或者速度慢的话在考虑其他方案，感谢讨论。

t68823878

我研究了一下，我还有N100和N150的小主机，直接让小主机跑hermes就行了，这样下来就只用再装一台AI服务器就足够了

t68823878

@terry 意思是我只需要下面这三台机器就够了吗？
1、办公机器：玩游戏办公以及其他日常操作，远程操作其他主机；
Windows系统
9950X3D+64GB主机平台+5080显卡；

2、AI服务器：主要运行本地QWEN3.6 27B模型和comfyui音视频生成
ubuntu系统
AMD7950X+32GB主机平台+RTX PRO 6000显卡；

3、agent主机：主跑agent
ubuntu系统
AMD7950X+32GB/64GB主机平台+3060显卡；

我主要是在纠结hermes是不是需要单独弄台主机来跑，规划是天天操练让他后面能够一个指令完成我绝大部分工作。

t68823878

@williamlouis 现在就是这么配置的，但是显卡在跑任务的时候干点其他游戏之类的就是不行，所以把他们才想到分几台机器各自处理任务

抡锤者

黑白狼头

帖子