请教：ASUS Ascent GX10

terry

@咫尺天涯 50多岁AI时代还是小伙子，认真锻炼身体，这代人活120以上不是问题。

benton yi

微信图片_20260506205439_201.jpg

先说说我的需求：我老婆那边有个成形了的做手作玩具的xhs账号，需要“文/图生图”持续产出可能会有版权纠纷的手作玩具图片，图生视频放到笔记里打造爆款，以及图生建模给到她的上游供应链打印模具。我这边用claude code氛围开发的也有两条线：1是上班时期自己想抽空做的个项目，目前已经出了一版正在迭代；还有一个自制的手游app需求也基本上厘清了也在排队；另外社交网络上也有固定自己设计打造的IP尝试做漫画或动画。所以基本上就是claude code/Trae和ComfyUI是硬需求，另外hermes也在玩票，想看能不能固化一些流程。
自己原来有一台9950x + 4090 + 192G内存的台式机，运行ComfyUI生图还行，大量生视频确实力不从心。之前也是想过用DGX Spark来搞定ComfyUI和智能体的推理大模型，就在Gemini，GPT和Grok和豆包都问过同样的一组问题。把自己的实际需求和当前已有的设备统统写进提示词，也是很有意思，看各大知名ai在线给我营业：从DGX vs M3Ultra Studio的Studio胜，然后被gemini推荐RTX Pro系列，到又换MacStudio vs RTX Pro5000/6000各大知名ai又给我营业了几轮，大部分是RTX Pro胜。
然后开始关注这个频道，看完了UP的每期视频和之前老特说的每期视频，下定决心了入的RTX Pro。
之前在win下面一直用lms试吃，ollama生产（qwen3.6:27b_q8_0上下文256k能到35~38t/s）。系统换到Linux之后ollama确实快了一些。但是在各ai的强烈推荐下，Linux下的生产环境SGLang>vLLM>>llama.cpp>ollama。于是先是尝试docker安装了SGLang，捣鼓了2个晚上装了2次回复都是乱码（后来在论坛发现有人说SGLang框架推理qwen3.6-27b-fp8就是有乱码，要坐等框架更新）。于是开始尝试vLLM，才有了上面的图。运行参数如下：
vllm serve /home/bentonyi/.cache/modelscope/hub/models/Qwen/Qwen3.6-27B-FP8
--trust-remote-code
--quantization fp8
--max-model-len 262144
--enable-auto-tool-choice
--max-num-seqs 32
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":4}'
--host 0.0.0.0
--port 8000
设置猜字的mtp并发为4的时候，有效token速度可以超过400t/s。本地的hermes速度能达到接近之前用minimax2.7新手包套餐的在线速度，终于可用了。
另：涡轮版本的RTX Pro风扇策略偏静音，不调的情况下工作温度在85~88℃范围。图中的温控工具是LACT，按此设置重度连续工作1小时不会上80℃。

省流版：用心写一组提示词，把自己的需求现状和担心的点告诉知名ai众，让它们在线给你营业，然后交叉验证各ai的回答，往往能解决90%以上的问题。

terry

@benton-yi 这么好的经验多发发，给我们也都参考下。我没有帮你什么，知识分享我的经验教训，你自己原本就懂这些。你的很多经验我也需要。

Kk Hh

DGX Spark 问题就是热加慢。好处就是没有显存焦虑，没有长文本焦虑，价格相对便宜。DGX Spark 本来就慢两台放一起更慢，你要是觉得一台能跑DGX Spark 你就买，两台不建议，做视频也不用考虑肯定慢。DGX Spark 定位我觉得就是单台小模型长文本。

Kk Hh

一个小模型你不着急速度，全是Q8精度 256KTOEKN 长度，两个并发，跑起来挺好的，反正对的起这个价格。你要是既要又要，那就别买DGX SPARK。

Kk Hh

@Fangbo-Da 我觉得把你真的没有必要折腾，DeepSeek-V4-Flash 这个模型精度就不高。你先买个云端的玩几天你再想想你用什么模型吧，模型决定设备。这个云端模型我也不知道你用的是什么，反正我是OLLAMA CLOUD ，全是满血免费大模型，那个顺手用那个。
你这个需求OLLAMA CLOUD 一个月20美金的订阅我觉得就够了，最差你也感受一下到底要用什么模型。你偏要做视频，你就买个5090最好了，直接出视频。
这里是OLLAMA 的模型列表 https://ollama.com/search
DGX SPARK 就是做了一个小模型的定位填补，因为这些小模型很少有云端提供服务。

terry

@Kk-Hh 数据很详细，有图有真相。

jenaflex

我觉得带oculink的AI Max395 128G，加上一个外接4080S 32G，也是一个可行的方案。这样AI Max395 可以跑120b moe（知识库比较广，偏玩具性质），4080S 32G干活。

期待下一代，直接出一个AI Max 495，直接带PCIE插槽就好了。

Fangbo Da

咫尺天涯

谢谢鼓励。

Fangbo Da

@jenaflex
非常感谢。绝不碰

抡锤者

请教：ASUS Ascent GX10