跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Sam HsuS

Sam Hsu

@Sam Hsu
关于
帖子
40
主题
5
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 纠结在JD买魔改还是在自己国家买5090
    Sam HsuS Sam Hsu

    @Ellen-Liew 我也建議5090 有保固 未來升級有潛力

    AI硬件

  • 數字人視頻生成感想
    Sam HsuS Sam Hsu

    @terry 用ltx2.3 Hermes 都說會oom.......

    AI音视频画图

  • 數字人視頻生成感想
    Sam HsuS Sam Hsu

    了解了 已經是ubuntu系統 馬上修改 謝謝
    ID-LoRA LTX 2.3 已排程!🚀

    本次參數:

    • 模型: LTX 2.3 22B(FP8)+ ID-LoRA CelebVHQ
    • 圖片: chest_b04(480×832 → 512×512)
    • 音頻: 9.48 秒自我介紹
    • 幀數: 144 幀 @ 15fps(音畫對齊 ✅)
    • Steps: 30 | CFG: 3.0 | Audio CFG: 7.0
    • STG: 1.0 | Identity Guidance: 3.0

    LTX 22B 雖然也大,但這是 distilled + fp8,而且 不用 block swap,應該比 Wan 快很多。預計 5–15 分鐘完成!🔥
    @terry 老特 請問還有需要修改的地方嗎?

    AI音视频画图

  • 數字人視頻生成感想
    Sam HsuS Sam Hsu

    @墙内人 當前數字人影片 — 完整參數

    🤖 模型架構

    基礎擴散

    • 層級: 基礎擴散

    • 模型: Wan 2.1 I2V 14B(fp8)

    • 大小: 16 GB

    • 用途: 圖片生影片本體

    數字人

    • 層級: 數字人

    • 模型: InfiniteTalk Single(fp16)

    • 大小: 4.8 GB

    • 用途: 對口型 + 動作控制

    文字編碼

    • 層級: 文字編碼

    • 模型: UMT5-XXL(bf16)

    • 大小: 5.3 GB

    • 用途: 提示詞理解

    視覺編碼

    • 層級: 視覺編碼

    • 模型: CLIP Vision H(fp8)

    • 大小: ~1 GB

    • 用途: 角色圖片特徵提取

    語音編碼

    • 層級: 語音編碼

    • 模型: wav2vec2 Chinese(fp16)

    • 大小: ~1 GB

    • 用途: 中文語音特徵提取

    ⚙️ 生成參數

    解析度

    • 參數: 解析度

    • 值: 480 × 832(9:16 直幅)

    時長

    • 參數: 時長

    • 值: 10 秒

    幀率

    • 參數: 幀率

    • 值: 25 fps

    總幀數

    • 參數: 總幀數

    • 值: 252 幀

    採樣步數

    • 參數: 採樣步數

    • 值: 25 steps

    CFG

    • 參數: CFG

    • 值: 5.0

    Shift

    • 參數: Shift

    • 值: 5.0

    Scheduler

    • 參數: Scheduler

    • 值: UniPC

    注意力

    • 參數: 注意力

    • 值: SageAttention 🚀

    Window 大小

    • 參數: Window 大小

    • 值: 81 幀(含 25 幀 overlap,自動分段生成長影片)

    🔧 系統設定

    ComfyUI

    • 項目: ComfyUI

    • 設定: systemd user service(--normalvram)

    VRAM 策略

    • 項目: VRAM 策略

    • 設定: Block swap 22/40 blocks → CPU

    VAE 解碼

    • 項目: VAE 解碼

    • 設定: Tiled VAE(272×272 tile)

    音頻

    • 項目: 音頻

    • 設定: edge-tts(中文 Xiaoxiao Neural)

    GPU

    • 項目: GPU

    • 設定: RTX 3090(24GB)

    🔄 完整流程

    角色圖(晚禮服美女)
    ↓ WanVideoClipVisionEncode(提取特徵)
    ↓ WanVideoImageToVideoMultiTalk(編碼圖像→隱空間)
    語音(edge-tts 10s)
    ↓ Wav2Vec2 Chinese(語音特徵提取)
    ↓ MultiTalkWav2VecEmbeds(對齊影片幀)
    ↓
    WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
    ↓(25 steps UniPC,252 幀分段生成)
    WanVideoDecode(tiled VAE)
    ↓
    VHS_VideoCombine(合成 mp4 + 音軌)
    ↓
    🎬 10 秒數字人影片完成!

    目前 GPU 100% 全力生成中,預計 ~01:50 完成!

    AI音视频画图

  • 數字人視頻生成感想
    Sam HsuS Sam Hsu

    3090 生成數字人視頻 真的耗費資源 30秒視頻 需要gpu 98-100%狂奔25-30分鐘

    AI音视频画图

  • 不聽老特言 吃虧在眼前
    Sam HsuS Sam Hsu

    @terry 我不知道 還能這樣玩.......
    搞定了 我讓他發圖給豆包qc 有技術上的問題 也找豆包

    随便聊聊

  • 不聽老特言 吃虧在眼前
    Sam HsuS Sam Hsu

    @terry
    系統穩定下來 很多天馬行空的想法都能實現了
    我只有一張3090 所以只能跑comfyui
    Hermes用deepseek 跑視頻工作流
    但是 deepseek v4 flash and pro 都沒法看圖
    所以抽卡過程還是要人工檢查 非常累
    突然想到生圖完成後 用3090跑qwen3.6 27b q4 km 有看圖功能 就讓它來qc 等需要生圖時 再用雲模型來操控 3090 跑comfyui
    後來又升級 讓絕大部份的工作都在本地模型完成 只在有生圖 生視頻需要3090跑comfyui時 用雲模型卸載3090 vram中的llm 再載入comfyui 模型
    這樣能節省80%的token 也不需要買兩張顯卡 只需要燃燒一點token 不知道各位先進 有何建議
    目前正在生成技能測試中 有最新消息 再跟各位兄弟回報

    全部設定完成!總結一下 👇

    ✅ 已就緒:

    Qwen3.6 server (port 8080)

    • 項目: Qwen3.6 server (port 8080)

    • 狀態: 🟢 運行中

    Hermes delegation

    • 項目: Hermes delegation

    • 狀態: 🟢 custom:qwen → 本地

    一鍵切換腳本 vram qwen/comfy/status

    • 項目: 一鍵切換腳本 vram qwen/comfy/status

    • 狀態: 🟢 ~/.hermes/scripts/

    新技能 vram-qc-delegation

    • 項目: 新技能 vram-qc-delegation

    • 狀態: 🟢 已建立

    未來工作時你只需要說「開始」,我就自動跑這個節奏:

    規劃/QC → delegate_task給Qwen (🆓)
    ↓
    生圖時間 → vram comfy → ComfyUI API (🔥 少量token)
    ↓
    圖好了 → vram qwen → Qwen QC (🆓)
    ↓
    合格 → delegate_task後製給Qwen (🆓)

    你省 ~95% token,我也省得每次手動打參數 😎

    随便聊聊

  • 装机翻车了,求救
    Sam HsuS Sam Hsu

    沒主角顯卡的照片........

    AI硬件

  • 4090 48G+Ubuntu26.04装好了,下一步Hermes还是comfyui
    Sam HsuS Sam Hsu

    @Daniel 哈哈哈 猜對了 建議您 都買4090 48g了
    先用deepseek v4 flash 養馬 跑你要的流程 用4090 單跑comfyui
    等流程跑通後 加一張3090 24gb 最好 4080s 32gb 跑本地llm qwen3.6 27gb 替代 deepseek api

    因為最難搞的 deepseek 幫你跑通了

    後面只要本地模型執行 量產就可以了

    好奇怪 明明輸入正確 文章一發布 排版就亂了

    都要空一行 排版才能正確

    AI硬件

  • 配了台机器, 准备开干, 大家讨论讨论
    Sam HsuS Sam Hsu

    國內的價格真的太香了

    AI硬件

  • 不聽老特言 吃虧在眼前
    Sam HsuS Sam Hsu

    太舒服了搞了一整天 終於搞定了 Ubuntu 真的太爽了 養馬反應超快 環境有穩定 舒服

    随便聊聊

  • 4090 48G+Ubuntu26.04装好了,下一步Hermes还是comfyui
    Sam HsuS Sam Hsu

    他的意思應該是4090 48gb同時跑Herman llm 跟 comfyui
    不建議這樣使用 會搶資源
    建議Hermes 用 deepseek v4 flash api 很便宜
    4090 48gb 單跑 comfyui
    用你下指令給Hermes 操作comfyui 生成圖片 視頻
    因為你不熟悉 comfyui 工作流 節點 參數設置 想透過Hermes 幫你操作
    你是這個意思 對嗎?

    AI硬件

  • 🚨 别再用 WSL2跑 Hermes 了!3 分钟,零配置 — 我把 Hermes Agent 搬到了 Windows 原生环境
    Sam HsuS Sam Hsu

    試過了 問題也是一堆 無法使用terminal
    Ui介面更不習慣 還是ubuntu 最穩

    AI Agent

  • 配了台机器, 准备开干, 大家讨论讨论
    Sam HsuS Sam Hsu

    美金肯定在外國 但是也太貴了 在國內的大家 真的很幸福

    AI硬件

  • 配了台机器, 准备开干, 大家讨论讨论
    Sam HsuS Sam Hsu

    嚇死人 這配置要 4800美金

    AI硬件

  • Hermes 和ComfyUI是布置在同一台电脑吗?
    Sam HsuS Sam Hsu

    @Joe-Zheng
    5060ti 16gb跑 comfyui
    7900xtx 跑 llm
    能玩 但是你會很辛苦

    AI硬件

  • 不聽老特言 吃虧在眼前
    Sam HsuS Sam Hsu

    用windows wsl2 Ubuntu 玩 Hermes comfyui
    總於成功把windows 玩炸了 windows 系統內的資料全沒了 養了幾週的馬 也死了
    現在決定聽老特的 安裝雙系統 從新養馬
    兄弟們 謹記教訓

    随便聊聊

  • 硬件上咨询
    Sam HsuS Sam Hsu

    R7 9700 支援24條pcie
    主機板支援2xpcie x16
    後期 你上兩張4090 48gb 會自動變成x8 x8

    AI硬件

  • 想要配置一台的AI工作站,制作动画片,希望主播能给一个方案,预算10万左右
    Sam HsuS Sam Hsu

    最近我也在玩動漫視頻 真的很難搞

    AI硬件

  • 發現好用的技能
    Sam HsuS Sam Hsu

    @Chuyao-Chen 當然可以 我就是用Hermes 沒問題

    自媒体
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组