跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

t68823878T

黑白狼头

@t68823878
关于
帖子
35
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • pro 6000 有什么好的购买渠道吗?什么价位合适?
    t68823878T t68823878

    本地线下老店家可以让他们调货,可能比6W多贵一点,售后相对来说比较简单。

    AI硬件

  • 4090 48G和rtx pro6000
    t68823878T t68823878

    @terry 我是用的RTX Pro6000 96G跑的infinitetalk的FP8 KJ的模型,在自己修改comfyui插件的情况下不管时长多少(硬盘够就能一直跑)总的显存占用基本上可以控制在40G以内;也试过原生BF16模型,但是视觉上没有感觉到很大的差异,还请大神指点一下视频质量的差异体现在哪些地方,主要是肉眼能看见的

    AI硬件

  • 运营油管对IP有要求吗?
    t68823878T t68823878

    @Daniel 收益的来源是全球各地观众看到你视频然后插播广告以及杂七杂八会员超级感谢打赏之类的,这个来源是看具体广告主插播广告付费的情况,比如金融方面的广告投放肯定价格就会高很多,所以你做财经之类的视频大概情况下就会比其他类型收益高一些,然后还有就是IP地区,油管根据IP地区推相关语言广告;
    然后你取得收益是根据你的AdSense所验证的区域国家进行打款;

    自媒体

  • 闲置硬件设备想组建一个AI小型工作室,各台机子配置方面请指正
    t68823878T t68823878

    @Tony-Wang 一般还在家办公和娱乐,外出办公的时间基本上可以忽略不记了,所以搞了5080的办公机;然后我comfyui生成音视频大概是40G的显存占用,这样看来还是老特的方案相对合适一点,后面如果还卡或者速度慢的话在考虑其他方案,感谢讨论。

    LLM讨论区

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    t68823878T t68823878

    docker run --gpus all -it --rm --ipc=host --net=host
    -v /home/yangxu/models:/models
    nvcr.io/nvidia/vllm:26.04-py3
    python3 -m vllm.entrypoints.openai.api_server
    --model /models/unsloth/Qwen3.6-27B-NVFP4
    --trust-remote-code
    --max-model-len 200000
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.58
    --enable-chunked-prefill
    --enable-prefix-caching
    --max-num-batched-tokens 32768
    --max-num-seqs 4
    --served-model-name "Blackwell-Qwen-27B"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --host 0.0.0.0
    --port 8000

    以上是用VLLM跑的参数,用的RTX PRO 6000跑unsloth/Qwen3.6-27B-NVFP4,为什么感觉速度比较慢呢?还是说这个49每秒都算是正常速度了?还望大神指导

    f485a7b6-481e-4292-8fb6-846c008f064f-image.jpeg

    LLM讨论区

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    t68823878T t68823878

    VLLM_ATTENTION_BACKEND=FlashInfer VLLM_PROFILER_ESTIMATE_CUDAGRAPHS=1 python3 -m vllm.entrypoints.openai.api_server
    --model /models/qwen/Qwen3.6-27B-FP8
    --trust-remote-code
    --max-model-len 131072
    --kv-cache-dtype fp8_e4m3
    --gpu-memory-utilization 0.58
    --enable-chunked-prefill
    --enable-prefix-caching
    --max-num-batched-tokens 8192
    --max-num-seqs 2
    --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
    --served-model-name "Qwen-27B-FP8"
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --host 0.0.0.0
    --port 8000

    半晚上研究,转向使用官方FP8模型,开启MTP,预测3字,基本上能够在90tk的速度。保证基础运行的情况下能够余下40GB左右的空间来搞comfyui,接下来就是继续研究怎么弄comfyui了。
    或者说是先研究hermes,然后让他帮我搞定comfyui,有没有大神给点建议?

    LLM讨论区

  • 关于论坛建设方向以及版主、高积分会员福利
    t68823878T t68823878

    @terry 等六一的时候我也申请一下看看有没有机会,主要是现在只有论坛的话交流还是不全面,如果有聊天软件补全交流通道的话就会好很多,毕竟是及时性的。

    站点公告

  • 关于论坛建设方向以及版主、高积分会员福利
    t68823878T t68823878

    我最近在改进infinitetalk无限时长代码,提高生图效率,后续可提供这方面的技术服务;
    同时我还能够提供谷歌苹果资金结算服务,资金不经过第三方直接进入你的银行账户,我负责银行和外管局的审核申报合规化等相关工作,不限单笔和总共的额度,就是说不占用个人5W美元的额度,这个可以和老特看看有没有合作的点。

    站点公告
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组