抡锤者

Vincent Chen

純粹分享小弟的心路歷程
我也交了很多學費。走了一些冤枉路。
雖然現在的配置不是完美
但也算是重回正軌，組裝了適合自己的電腦。
如果你有興趣了解我的配置，可以私信我。
利申，我是一個50歲的卡車司機。不是賣電腦的
不過我覺得你可以從你需不需要本地部署這個方向考慮一下。
因為本地部署的確需要一定的資金。
1-2w 我覺得差不多是基本。
我主要的用途是文字輸出。
純粹個人觀察。配置太低，部署一些參數較少的模型，效果可能差少少。

Vincent Chen

@ken-chan
根據我的觀測。
用於語言大模型的話
一般的話，vram是會疊加。
例如，40gb的大模型
可以選擇平均分配到兩張gpu
Pipeline parallel
就是20放在1號卡
另外，20放在2號卡。
運算的時候會先跑1號，跟住跑2號
不斷重複。
根據我的觀察，這樣gpu不會太熱。因為有一定的休息時間。
速度會比單卡慢少少。

另外，可以設定為tensor parallel
同樣都是1號卡20gb 2號卡20gb
但兩張卡同時間運行。
每一個token計算完都會聚合在一起。
不斷重複。
好處是你可以同時間用到兩張gpu的 memory bandwidth
如果你的gpu 是800gb/s
兩張卡跑tp 就是800 x 2
不過要扣除每一token計算輸出時所用的時間
根據我的理解是，大約單卡是速度的1.5倍左右。

但是，如果跑圖片或視頻就應該不能了
只能夠一張一張卡跑。記憶體不能疊加。

Vincent Chen

我也很喜歡看Terry介紹硬件。
看了又看，看完再看。
因為以前開始購買硬件的確行了很多冤枉路。
所以我覺得這個話題看不厭的。
正如Terry所說
建議買intxx的....本地部署低b數的模型的....
我就是中伏用筆記本開始跑...
之後又中伏用普通內存跑235b。
其實，我看到有一些油管的視頻。會用四條ddr5,但其實四條ddr幾乎不可能全速運行的，大部分家用主機板會降頻去到3600。
這些都要中過伏才知道
Terry 會否考慮一下
出一集按預算挑選設備（整机）
10000,20000,40000.....
不過可能會很辛苦
但應該很好看。

Vincent Chen

hello GH Y
我也是本地部署打算用來輸出小說。
已經運行了幾個月
你挑的主機板很好。
我用的是
Asrock x870e taichi 和 x870 creator
兩條pcie之間的距離多1格
如果密閉機箱，在日後雙卡的話，對上面的gpu溫度應該有少許幫助。
如果閣下主機板未買的話可以參考一下。

加油，加油，加油。

Vincent Chen

@566656661

我只是幸運地
硬件都是在漲價之前，偷偷地買入。（瞞着太太）
當時的記憶體大約128gb 大约2000
Gpu應該差不多是msrp

因為以前不懂
打算買256gb ram回來運行235b
結果大家都明白。
9950+256gb + 235b,
能行 1t/s
以前太天真，打算1秒鐘一個字都沒有所謂
吃過飯回來就有幾千字了。
結果你懂的。

已經把gpu 功耗限制到70%
謝謝你的提議。

Vincent Chen

另外。2號機的部分。
配置都是差不多。
9900x
128gb 內存
Asrock x870e taichi(pcie5 x8 mode x 2)
3090 × 2
Gpu 是朋友送的rog3090, 我自己在補了一張。
這一台電腦我打算安裝agent。
全新的windows 及賬戶

打算遙控操作

今天稍後進行安裝

Vincent Chen

Vincent Chen

Vincent Chen

Vincent Chen

我的兩部機配置如下。
1号
9950x3d
128gb 5600 內存
Tuf 5090
Pny 5090
主機板是asrock x870 creator
用這塊主機板的主要原因是因為它提供了兩條 pcie5 x8 mode 的插槽
再上就要買workstation 級別的主機板和其他配置。我覺得有點貴。
而且裝不進一個普通機箱。
我現在用的機箱是o11 xl
之前試過其他機箱，我認為要放下兩張gpu。這一個是最好的。
我的1號機。散熱方面，設計比較土炮
第一張是tuf5090。因為比較大張，而且兩張gpu的之間空間非常狹窄
所以第二張gpu我盡可能選小一點的。
第二張gpu是pny
兩張gpu的功耗分別限制在80%。
因為我怕燒接口
因為上面的gpu散熱比較慢
以往都是比較高溫
在上面的gpu背後有一個洞
我直接的把一把120mm的風扇放在上面。把熱空氣由來往外抽。
做法比較土炮。不過我覺得效能非常之好。
以往都是下面有新鮮空氣的gpu溫度會低10度左右。
現在調轉頭上面的gpu反而溫度更低。

這部電腦我日常都是用來玩遊戲或者處理一些私人事項

因為我不懂程式
亦太不會ai的運作。所以只能夠簡單地報告一下。現在這個測試。

測試嘅平台 : lm studio

大模型：千問3.5 122b a10b iq3m
上下文設定在25萬
Kv q4_0
Tensor parallel (之前lm studio沒有)

整個大模型和上下文大約佔用54GB

測試如下（比較簡陋，請見諒。)
上下文
1% 124.45t/s
2% 120.85t/s
3% 118.29t/s
4% 115.28t/s
...
8% 101.94t/s
9% 99.21t/s
12% 94.63t/s
因為並不是高強度的測試。所以gpu的溫度大約為時在65度以下。

我稍後會再進行一次詳細的測試
把上下文填到80%
再跟大家分享

其實我想重點分享的主要是散熱的部分。

因為對我來說。用於輸出文字，50,60t/s甚至乎之前180t/s
我覺得意義不大。反正我的閱讀速度也沒有這麼快。
我更加著重的是這台電腦的保養。

我覺得之前一路沒有辦法解決上面那一張gpu的散熱問題。就算idling 他的溫度50度多一點
曾經考慮過用開放式機箱。
不過因為家裡灰塵比較多。
比較驚喜的是我加了這一把。12cm的風扇在這一張gpu背後。
實質上把溫度降下不少。
現在idling 只有大約40度左右。
我覺得如果是用機箱的朋友可以考慮一下試一試這個操作。

7月底放假的時候再跟大家詳細分享一下。
一個月的試用體驗

Vincent Chen

各位大大好
很興奮想和大家分享和閒聊一下

花了足足3個星期。
現在2号電腦終於組裝好了。
還沒有測試已經超級疲倦
明天要趁太太和女兒去理髮，開機測試

多謝之前kos提議裝遙控開關。
但現在電腦沒有空位了。

不過已經跟女兒說好上學前幫我開機放學後幫我關機。

現在一號機
用來運作語言大模型。
今天在windows lm studio 運行qwen3 80b q4km, 260k q4 kv context, gpu x2 TP, 輸出接近180token, 不過當時上下文只用了大約五par
速度相當快
但感覺上有點不穩定。

之前沒有tp功能的時候是用pp。
速度大約是130
tp真是快很多。
不過gpu溫度明顯比pp高了
可能以後都會用pp算了。
Gpu太貴重要好好保護

2號機作為agent
打算遙控生圖

看了特哥很多的視頻決定用hermes
正如特哥在youtube所說，先把這部機跑起來。
希望明天一次過搞定
其他的慢慢在調節。

Vincent Chen

謝謝 Terry 和Kos，其實以往一路害怕50歲的大叔還學人玩ai有點害羞
直至看到博主的最新youtube。
提及一位50歲的先生也想透過ai寫一些長篇小說和產生圖片視頻。
所以才鼓起勇氣來這個論壇
之前一路都覺得很孤單。
因為我看見每一位大神都玩得很高級。
我就像是在玩家家洒。。。實在有點慚愧和害羞。

情況是這樣的
上年12月我有個朋友送了一張3090給我。
結果我唔打誤撞買了一大堆硬件回來。
現在設備還可以
現在還剛剛起步，只寫了三章小說

第一台電腦屬於個人電腦我會用文字創作和作玩遊戲。
我另外組裝了一台打算用這台電腦安裝agent，本地部署qwen 27b.
我是開卡車的。因為工作關係。每星期只有回家一到兩天。我打算用第二台電腦遙控。作為文字生圖片之用。
待我回家後再慢慢挑選適合的圖片。
其實agent能夠經過通訊軟件，幫我控制comfy ui出圖嗎？
因為我想2號機和我私人的電腦完全隔離。
我怕agent亂動我的資料。

Vincent Chen

大家好，我是一個50歲的中年大叔
現在剛剛開始接觸本地部署ai
希望可以在工餘的時間完成以前想做，但沒有時間做的事。
希望完成3個以前想好的小說故事
往後有很多的問題。希望各位大神多多指教。

抡锤者

Vincent Chen

帖子