抡锤者

Sam Hsu

好刺激啊感覺推翻之前的認知了大神們等你們更新辛苦了

Sam Hsu

@terry 放心的很安全我都來20多年了

Sam Hsu

@liuhb0528 菲律賓從玩家手上買的遊戲卡不是渦輪卡所以風險高價格也不一樣的

Sam Hsu

@johnnybegood 可以用Hermes agent
30秒視頻生成3個10秒視頻自動拼接成最終視頻

Sam Hsu

@terry 價格我有post 出來都在淘寶買的除了cpu ram是二手其他都是新品
我台北的來菲律賓25年了

Sam Hsu

@terry 什麼錢？
新視頻你說會嘗試EPYC
我先幫你測試嘿嘿嘿
我的想法是如果後面不做視頻或者頻道了直接掛出去ai算力出租

Sam Hsu

@johnnybegood 是的可以提供一下你用什麼方式生成視頻嗎？3090 10秒視頻只要3.5分鐘

Sam Hsu

@mankit-fu 就算你用訂閱你還是要開機一樣需要用電 3090滿載300w 加上其他預計150w
總共0.45w 你不可能24小時滿載

Sam Hsu

@terry 設備還沒到呢？昨晚剛在淘寶下的單發來菲律賓估計還有2周
這幾天沒來論壇就是在搞這套設備摸索了好久
圖檔太大無法上傳

Sam Hsu

H12SSL-i 3700
EPYC 7302+散熱器 900
ddr4 reg ecc 16gbx8 2133mhz 350*8=2800 海力士
1650w ATX 長城金牌電源 700

6u機箱 750

Gm7000 2tb 1700

2x3090 人民幣8000

最多能支援7張gpu

各位有什麼建議的嗎？

Sam Hsu

@Ellen-Liew 我也建議5090 有保固未來升級有潛力

Sam Hsu

@terry 用ltx2.3 Hermes 都說會oom.......

Sam Hsu

了解了已經是ubuntu系統馬上修改謝謝
ID-LoRA LTX 2.3 已排程！

本次參數：

模型： LTX 2.3 22B（FP8）+ ID-LoRA CelebVHQ
圖片： chest_b04（480×832 → 512×512）
音頻： 9.48 秒自我介紹
幀數： 144 幀 @ 15fps（音畫對齊）
Steps： 30 | CFG： 3.0 | Audio CFG： 7.0
STG： 1.0 | Identity Guidance： 3.0

LTX 22B 雖然也大，但這是 distilled + fp8，而且不用 block swap，應該比 Wan 快很多。預計 5–15 分鐘完成！
@terry 老特請問還有需要修改的地方嗎？

Sam Hsu

@墙内人當前數字人影片 — 完整參數

模型架構

基礎擴散

• 層級: 基礎擴散

• 模型: Wan 2.1 I2V 14B（fp8）

• 大小: 16 GB

• 用途: 圖片生影片本體

數字人

• 層級: 數字人

• 模型: InfiniteTalk Single（fp16）

• 大小: 4.8 GB

• 用途: 對口型 + 動作控制

文字編碼

• 層級: 文字編碼

• 模型: UMT5-XXL（bf16）

• 大小: 5.3 GB

• 用途: 提示詞理解

視覺編碼

• 層級: 視覺編碼

• 模型: CLIP Vision H（fp8）

• 大小: ~1 GB

• 用途: 角色圖片特徵提取

語音編碼

• 層級: 語音編碼

• 模型: wav2vec2 Chinese（fp16）

• 大小: ~1 GB

• 用途: 中文語音特徵提取

️ 生成參數

解析度

• 參數: 解析度

• 值: 480 × 832（9:16 直幅）

時長

• 參數: 時長

• 值: 10 秒

幀率

• 參數: 幀率

• 值: 25 fps

總幀數

• 參數: 總幀數

• 值: 252 幀

採樣步數

• 參數: 採樣步數

• 值: 25 steps

CFG

• 參數: CFG

• 值: 5.0

Shift

• 參數: Shift

• 值: 5.0

Scheduler

• 參數: Scheduler

• 值: UniPC

注意力

• 參數: 注意力

• 值: SageAttention

Window 大小

• 參數: Window 大小

• 值: 81 幀（含 25 幀 overlap，自動分段生成長影片）

系統設定

ComfyUI

• 項目: ComfyUI

• 設定: systemd user service（--normalvram）

VRAM 策略

• 項目: VRAM 策略

• 設定: Block swap 22/40 blocks → CPU

VAE 解碼

• 項目: VAE 解碼

• 設定: Tiled VAE（272×272 tile）

音頻

• 項目: 音頻

• 設定: edge-tts（中文 Xiaoxiao Neural）

GPU

• 項目: GPU

• 設定: RTX 3090（24GB）

完整流程

角色圖（晚禮服美女）
↓ WanVideoClipVisionEncode（提取特徵）
↓ WanVideoImageToVideoMultiTalk（編碼圖像→隱空間）
語音（edge-tts 10s）
↓ Wav2Vec2 Chinese（語音特徵提取）
↓ MultiTalkWav2VecEmbeds（對齊影片幀）
↓
WanVideoSampler ← Wan 14B + InfiniteTalk + 文字提示
↓（25 steps UniPC，252 幀分段生成）
WanVideoDecode（tiled VAE）
↓
VHS_VideoCombine（合成 mp4 + 音軌）
↓
10 秒數字人影片完成！

目前 GPU 100% 全力生成中，預計 ~01:50 完成！

Sam Hsu

3090 生成數字人視頻真的耗費資源 30秒視頻需要gpu 98-100%狂奔25-30分鐘

Sam Hsu

@terry 我不知道還能這樣玩.......
搞定了我讓他發圖給豆包qc 有技術上的問題也找豆包

Sam Hsu

@terry
系統穩定下來很多天馬行空的想法都能實現了
我只有一張3090 所以只能跑comfyui
Hermes用deepseek 跑視頻工作流
但是 deepseek v4 flash and pro 都沒法看圖
所以抽卡過程還是要人工檢查非常累
突然想到生圖完成後用3090跑qwen3.6 27b q4 km 有看圖功能就讓它來qc 等需要生圖時再用雲模型來操控 3090 跑comfyui
後來又升級讓絕大部份的工作都在本地模型完成只在有生圖生視頻需要3090跑comfyui時用雲模型卸載3090 vram中的llm 再載入comfyui 模型
這樣能節省80%的token 也不需要買兩張顯卡只需要燃燒一點token 不知道各位先進有何建議
目前正在生成技能測試中有最新消息再跟各位兄弟回報

全部設定完成！總結一下

已就緒：

Qwen3.6 server (port 8080)

• 項目: Qwen3.6 server (port 8080)

• 狀態: 🟢 運行中

Hermes delegation

• 項目: Hermes delegation

• 狀態: 🟢 custom:qwen → 本地

一鍵切換腳本 vram qwen/comfy/status

• 項目: 一鍵切換腳本 vram qwen/comfy/status

• 狀態: 🟢 ~/.hermes/scripts/

新技能 vram-qc-delegation

• 項目: 新技能 vram-qc-delegation

• 狀態: 🟢 已建立

未來工作時你只需要說「開始」，我就自動跑這個節奏：

規劃/QC → delegate_task給Qwen ()
↓
生圖時間 → vram comfy → ComfyUI API ( 少量token)
↓
圖好了 → vram qwen → Qwen QC ()
↓
合格 → delegate_task後製給Qwen ()

你省 ~95% token，我也省得每次手動打參數

Sam Hsu

沒主角顯卡的照片........

Sam Hsu

@Daniel 哈哈哈猜對了建議您都買4090 48g了
先用deepseek v4 flash 養馬跑你要的流程用4090 單跑comfyui
等流程跑通後加一張3090 24gb 最好 4080s 32gb 跑本地llm qwen3.6 27gb 替代 deepseek api

因為最難搞的 deepseek 幫你跑通了

後面只要本地模型執行量產就可以了

好奇怪明明輸入正確文章一發布排版就亂了

都要空一行排版才能正確

Sam Hsu

國內的價格真的太香了

抡锤者

Sam Hsu

帖子