跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

t68823878T

黑白狼头

@t68823878
关于
帖子
35
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 关于论坛建设方向以及版主、高积分会员福利
    t68823878T t68823878

    @terry 主要还是文件图片共享这些相对麻烦一点

    站点公告

  • 关于INTEL 的B70 PRO。
    t68823878T t68823878

    想请教一下,所谓的适配一塌糊涂,是完全跑不起来还是说跑起来很慢,或者说很多节点不能用?

    AI硬件

  • 关于论坛建设方向以及版主、高积分会员福利
    t68823878T t68823878

    @terry 等六一的时候我也申请一下看看有没有机会,主要是现在只有论坛的话交流还是不全面,如果有聊天软件补全交流通道的话就会好很多,毕竟是及时性的。

    站点公告

  • 关于论坛建设方向以及版主、高积分会员福利
    t68823878T t68823878

    @sirwang 技术交流嘛,互相学习还是可以的。

    站点公告

  • 关于论坛建设方向以及版主、高积分会员福利
    t68823878T t68823878

    我最近在改进infinitetalk无限时长代码,提高生图效率,后续可提供这方面的技术服务;
    同时我还能够提供谷歌苹果资金结算服务,资金不经过第三方直接进入你的银行账户,我负责银行和外管局的审核申报合规化等相关工作,不限单笔和总共的额度,就是说不占用个人5W美元的额度,这个可以和老特看看有没有合作的点。

    站点公告

  • 入手了pro6000 有没有兄弟一起研究的?
    t68823878T t68823878

    找个风扇吹一下就好,最好是能够照顾到电源接口。反正我之前都是600W满功耗跑了好几晚上,确实是比较烫的。
    所以后面我准备弄两个额外的风扇对着吹,这样应该就很保险了。

    AI硬件

  • 请教pro6000同时跑comfyui视频和hermes+qwen3.6-27B-Q4任务会部会卡?
    t68823878T t68823878

    VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server
    --model /models/qwen/Qwen3.6-27B-FP8
    --trust-remote-code
    --max-model-len 102400
    --kv-cache-dtype fp8_e4m3
    --gpu-memory-utilization 0.55
    --enable-chunked-prefill
    --enable-prefix-caching
    --max-num-batched-tokens 8192
    --max-num-seqs 2
    --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
    --served-model-name "Qwen-27B-FP8"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --host 0.0.0.0
    --port 8000

    5a4206ad-83a8-4cd9-bae2-68e7c9b1a30c-image.jpeg

    我用的这个参数,然后comfyui做的生成视频工作流,研究了一晚上暂时没有崩过,comfyui跑起来的额时候能到40GB左右的样子通常不会超过40GB。vllm我之前设置的0.58也不会崩,后面为了保险降到了0.55;不过我这是100K上下文,暂时就我一个人在用。
    不清楚如果后面有并发了会不会崩。

    AI硬件

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    t68823878T t68823878

    VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server
    --model /models/qwen/Qwen3.6-27B-FP8
    --trust-remote-code
    --max-model-len 131072
    --kv-cache-dtype fp8_e4m3
    --gpu-memory-utilization 0.58
    --enable-chunked-prefill
    --enable-prefix-caching
    --max-num-batched-tokens 8192
    --max-num-seqs 2
    --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
    --served-model-name "Qwen-27B-FP8"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --host 0.0.0.0
    --port 8000

    半晚上研究,转向使用官方FP8模型,开启MTP,预测3字,基本上能够在90tk的速度。保证基础运行的情况下能够余下40GB左右的空间来搞comfyui,接下来就是继续研究怎么弄comfyui了。
    或者说是先研究hermes,然后让他帮我搞定comfyui,有没有大神给点建议?

    LLM讨论区

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    t68823878T t68823878

    @Fred 因为还要留显存跑comfyui做音视频,而且我看网上说BLACKWELL架构跑NVFP4和FP8精度是差不多的,速度上还有一定优势,所以就用了NVFP4,后面我看看FP8精度的情况下能够跑到多少速度。

    LLM讨论区

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    t68823878T t68823878

    docker run --gpus all -it --rm --ipc=host --net=host
    -v /home/yangxu/models:/models
    nvcr.io/nvidia/vllm:26.04-py3
    python3 -m vllm.entrypoints.openai.api_server
    --model /models/unsloth/Qwen3.6-27B-NVFP4
    --trust-remote-code
    --max-model-len 200000
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.58
    --enable-chunked-prefill
    --enable-prefix-caching
    --max-num-batched-tokens 32768
    --max-num-seqs 4
    --served-model-name "Blackwell-Qwen-27B"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --host 0.0.0.0
    --port 8000

    以上是用VLLM跑的参数,用的RTX PRO 6000跑unsloth/Qwen3.6-27B-NVFP4,为什么感觉速度比较慢呢?还是说这个49每秒都算是正常速度了?还望大神指导

    f485a7b6-481e-4292-8fb6-846c008f064f-image.jpeg

    LLM讨论区

  • 请教各位大神,想要起一个英语频道,文案、语音生成方面应该怎么解决?
    t68823878T t68823878

    @terry 做顺了就不存在累的问题了,都能流程化了,加上现在AI的协助,比以往还是要轻松很多了。

    自媒体

  • 请教各位大神,想要起一个英语频道,文案、语音生成方面应该怎么解决?
    t68823878T t68823878

    @y2k 哈哈,不存在的,我也不知道老特做的什么方向;主要是中文频道竞争相对比较激烈,英文好干一些。我看了大量的中文博主收益情况,都不算高。

    自媒体

  • 有沒有秋葉大神整合包 夸克網盤以外的鏡像?
    t68823878T t68823878

    @Tony-Wang 油猴需要先保存到自己网盘然后才可以下载,就是说还是需要登陆

    随便聊聊

  • 有沒有秋葉大神整合包 夸克網盤以外的鏡像?
    t68823878T t68823878

    微信可以扫描登入,登入之后可以跳过录入手机号,但是我不知道微信在海外是不是必须要有手机号;

    随便聊聊

  • 请教各位大神,想要起一个英语频道,文案、语音生成方面应该怎么解决?
    t68823878T t68823878

    我想要建立一个英语频道,想要问一下中英文翻译应该怎么弄比较好?

    1、中翻英用什么工具比较好?是否直接用在线AI比较方便,哪个AI的中翻英最适合国外观众的常规交流;

    2、翻译后如何进行校对,是否需要多个工具之间交叉校对,最终再进行人工审核;

    3、对于使用AI翻译或者生成的稿件,应该怎么进行AI查重,避免被油管定为低价值内容;

    4、英文生成语音有没有推荐的语音模型;

    以上几个问题还请各位有经验的大神指导一下

    自媒体

  • 闲置硬件设备想组建一个AI小型工作室,各台机子配置方面请指正
    t68823878T t68823878

    @terry 有道理,其实再配置好一台RTX PRO 6000的AI服务器就能搞定所有工作了。

    LLM讨论区

  • 闲置硬件设备想组建一个AI小型工作室,各台机子配置方面请指正
    t68823878T t68823878

    @Tony-Wang 一般还在家办公和娱乐,外出办公的时间基本上可以忽略不记了,所以搞了5080的办公机;然后我comfyui生成音视频大概是40G的显存占用,这样看来还是老特的方案相对合适一点,后面如果还卡或者速度慢的话在考虑其他方案,感谢讨论。

    LLM讨论区

  • 闲置硬件设备想组建一个AI小型工作室,各台机子配置方面请指正
    t68823878T t68823878

    我研究了一下,我还有N100和N150的小主机,直接让小主机跑hermes就行了,这样下来就只用再装一台AI服务器就足够了

    LLM讨论区

  • 闲置硬件设备想组建一个AI小型工作室,各台机子配置方面请指正
    t68823878T t68823878

    @terry 意思是我只需要下面这三台机器就够了吗?
    1、办公机器:玩游戏办公以及其他日常操作,远程操作其他主机;
    Windows系统
    9950X3D+64GB主机平台+5080显卡;

    2、AI服务器:主要运行本地QWEN3.6 27B模型和comfyui音视频生成
    ubuntu系统
    AMD7950X+32GB主机平台+RTX PRO 6000显卡;

    3、agent主机:主跑agent
    ubuntu系统
    AMD7950X+32GB/64GB主机平台+3060显卡;

    我主要是在纠结hermes是不是需要单独弄台主机来跑,规划是天天操练让他后面能够一个指令完成我绝大部分工作。

    LLM讨论区

  • 闲置硬件设备想组建一个AI小型工作室,各台机子配置方面请指正
    t68823878T t68823878

    @williamlouis 现在就是这么配置的,但是显卡在跑任务的时候干点其他游戏之类的就是不行,所以把他们才想到分几台机器各自处理任务

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组