抡锤者

@terry

我找個時間設立一下SGLang再配合OpenCode使用

SGLang相對比較少個人用戶吧...應該

好欸, 多一個人買4500 Pro了

@Marco-ZHANG

Qwen3.6-27B-PrismaQuant-Heretic-5.25bit-vllm

這個模型比PrismaSCOUT還要多2GB權重, 變相Pro 4500就需要把上下文降低到130K ~ 150K左右, 降低太多對我編程來說不利所以我也沒用

日常使用估計問題不大

你也可以自己找找看AutoRound或者AWQ的免审察模型, 不過就沒有NVFP4加速了

@Marco-ZHANG

看上下文長度

因為我平時拿來編程, 150K大約63 tks, 210K也有57tks左右

@Marco-ZHANG

速度會更快, 代價就是模型在呼叫工具 (Hermes, OpenCode, Cline)會更容易有問題

Autoround, AWQ是單純針對精度作優化, 表現持平, 速度就沒有NVFP4快

用NVFP4模型就需要避開激活 (Activation) 層都被壓成NVFP4的模型, 尤其是linear_attn層

我目前也是用PrismaSCOUT配合OpenCode日常使用

@Marco-ZHANG

可以參考一下我發過的帖子

都是RTX Pro 4500配上不同量化模式下的模型 (AWQ, AutoRound, PrismaQuant, MoQ, K Quant) + 不同引擎 (vLLM, LLama.cpp)

@terry said:

这问题你不该问我，是我要白嫖你的测试数据做视频。

有什麼需要我在空閒的時候再試試看嘛?

不過最近這幾個星期有項目準備開放給用戶, 星期六需要加班 + 星期日休息, 所以可能需要等一等

@terry

華為的950 PR應該要在華為雲才能租到吧

GB300國外應該能租到, 每小時大約40多50 HKD很貴就是了

@terry

所以才說有用家實際評測才行啊

在租算力的地方能租來試試看嘛

@kos-or

它的營運成本降低就是來自把電力成本攤分到用戶啊

不過電力成本降低但是硬件的維護成本會大幅增加吧, 資料中心的環境溫度跟濕度都受控, 放在外面就算有個盒子蓋住也……

而且更不提美國目前的電力網已經接近上限了, 家用電都要跟資料中心搶電, 個人覺得家用電網不太可能有多餘電力來玩這些東東……

I believe it when I see it

不是說有什麼立場, 但是無論是大陸跟外國都太多PPT產品了, 開頭講到天花龍鳳然後最後翻車

沒有用家實際評測其實說到追到老黃也沒用

嘛, 不過有競爭者總是好事

這個不會導致安全問題嘛

而且沒記錯的話這個還是要屋主負責付電費錢?

我很懷疑它的補貼幅度會高到哪裏去

@翻译帮帮

AMD的話還是慢慢等UDNA出吧, 目前基本上所有普通人會用到的都針對CUDA / RDNA 2+

Wavefront 64架構支援太偏科了 (簡稱為WAVE)

VEGA / GCN / CDNA 基本上都跑在WAVE64, 因爲是專門針對寬向量所以只面向高精度的科學計算進行優化 (流體力學和分子動力之類的), 專精都是FP32甚至FP64

對於市面上大多東西都不能完全發揮實力, 向量運算也都沒有優化, 畢竟市面最多都是跑到FP16

支援度比較好的RDNA 2 (RX 6000系列), RDNA 3 (RX 7000系列), RDNA 4 (RX 9000系列)都是跑在WAVE 32

恭喜

@Bunsei

雖然運用Hybrid Attention分別壓縮重要跟不重要的Layer到1 BPW是很厲害沒錯啦, 不過個人覺得有點喧嘩取眾

模型的BPW對於輸出跟Tool Call是很重要的, 這也是為什麼BPW低的27B更容易陷入Thinking Loop跟Tool Call失敗

根據這個評測, 單是Tool Call上多20%的失敗就足夠判死刑

@linkdesu

Oculink受限在PCIe 4.0 x4, 有些甚至要降到3.0 x4, 用Type C TB4跑就更慢

在比較高端點的卡例如7900XTX, 4090跟5090吞吐會就卡得死死的

顯存能容納所有權重或者Cache倒是還好

7900XTX只有24GB, 需要切換內存 + 顯存的情況估計比較多, 對於這些工作流來說基本上還是免了

@脆派科技

外接只適合文字模型, 不適合需要不停Offload的圖生成

Oculink相比PCIe還是太吃虧

@fcme

vLLM的ROCm我記得是有支持AITER加速 (AMD自家Tensor Core, 應該是透過分拆Kernel來增加Decode速度)

可以找找看有沒有人特意出vLLM 基於AITER版本的Docker Image, aml731我記得也有出, 就是不知道有沒有更新

大佬回來了

抡锤者

566656661

帖子