<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据]]></title><description><![CDATA[<p dir="auto">我的装备看这个帖子：<br />
<a href="https://lcz.me/topic/117/%E5%B0%8F%E5%B0%8F%E7%A7%80%E4%B8%80%E4%B8%8B%E6%88%91%E7%9A%84ai-rig/12">https://lcz.me/topic/117/小小秀一下我的ai-rig/12</a></p>
<p dir="auto">这个帖子主要是分享一下用这套装备能怎么跑大模型（LLM），有哪些组合，能大概跑出来什么样的效果等等。</p>
<h2>GPU</h2>
<ul>
<li>RTX 4090 48G （独立显卡）</li>
<li>AMD Radeon AI PRO R9700 32G （独立显卡）</li>
<li>AMD Radeon 8060S Graphics 128G（AI MAX 395的集成显卡）</li>
</ul>
<p dir="auto">各自的特点：</p>
<ol>
<li>AI Max 395：价格14000RMB左右，集成显卡代号8060S，共享内存128G，内存最大，能通吃许多大模型， 但算力最低，内存带宽260G左右，也是最低，所以跑大模型的速度最慢；</li>
<li>4090 48G：价格30000RMB左右，最贵，最快，显存带宽1TB左右，生态最好，vLLM可以跑得飞起，但48G显存吃不下超大模型，但跑27B模型或者30B模型，可以把上下文放256K，非常爽；</li>
<li>R9700 32G：价格11000RMB左右，32G显存，速度尚可，性价比高，但算力和显存带宽（660G左右），都不如4090，因此速度介于8060S集成显卡和4090之间，能跑27B模型，选择Q4量化模型，上下文也能到256K。</li>
</ol>
<h2>玩法</h2>
<p dir="auto">分3类：</p>
<ol>
<li>小模型单卡玩法，这就不说了，就是用一个卡跑一个模型；</li>
<li>中等模型分2卡玩法，例如Qwen3.5-122B模型，本来可以直接跑在AI MAX 395的集成显卡上，但我嫌他性能太差，然而4090和R9700两个卡，任何一个的显存又不够单跑这个模型，但2个卡加起来80G的VRAM就够了，因此可以将它用llama.cpp的<code>-ts</code>参数，分层到2块卡上跑，效果惊人地快；</li>
<li>超大模型分卡分3卡玩法，例如MiniMax M2.7这种，下载下来哪怕是Q4的量化版本，都有120多GB，连AI MAX 395的128GB都放不下（需要留内存给系统和kv cache），这种情况，可以把同一个模型分成3部分，让4090承担大头，AI MAX395承担中头，R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿，但是能跑，而且如果不用长上下文的Agent，仅用来聊天（利用超大知识库），性能也可以接受（吐字不慢）。</li>
</ol>
<p dir="auto">后面我就把这几种方法跑出来的效果给大家汇报一下。</p>
<h2>测试工具</h2>
<p dir="auto"><code>llama-benchy</code>： 我用这个工具，它是通过openai的兼容api端点做压测，可以对任何推理引擎做压测（我是vLLM和llama.cpp），它能反映最终用户（例如Hermes Agent）能真正感受到的速度。<br />
<a href="https://github.com/eugr/llama-benchy" rel="nofollow ugc">GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends</a></p>
<h2>压测结果</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>模型</th>
<th>参数量</th>
<th>量化方式</th>
<th>权重大小</th>
<th>推理框架</th>
<th>GPU</th>
<th>PROMPT PREFILL (pp8192)</th>
<th>TOKEN GENERATION (tg512)</th>
</tr>
</thead>
<tbody>
<tr>
<td>MiniMax2.7</td>
<td>230B-A10B</td>
<td>UD-IQ4_XS</td>
<td>102GB</td>
<td>llama.cpp (-ts)</td>
<td>4090+R9700+8060S</td>
<td>781.68</td>
<td>27.74</td>
</tr>
<tr>
<td>Qwen3.5-122B-A10B</td>
<td>122B-A10B</td>
<td>UD-Q4_K_XL</td>
<td>73GB</td>
<td>llama.cpp</td>
<td>8060S</td>
<td>352.36</td>
<td>20.96</td>
</tr>
<tr>
<td>Qwen3.5-122B-A10B</td>
<td>122B-A10B</td>
<td>UD-Q4_K_XL</td>
<td>73GB</td>
<td>llama.cpp (-ts)</td>
<td>4090+R9700</td>
<td>2234.51</td>
<td>53.63</td>
</tr>
<tr>
<td>Qwen3.6-35B-A3B</td>
<td>35B-A3B</td>
<td>Q5_K_XL</td>
<td>25G</td>
<td>llama.cpp</td>
<td>4090</td>
<td>7978.24</td>
<td>162.10</td>
</tr>
<tr>
<td>Qwen3.6-35B-A3B</td>
<td>35B-A3B</td>
<td>Q5_K_XL</td>
<td>25G</td>
<td>llama.cpp</td>
<td>R9700</td>
<td>2880.76</td>
<td>79.05</td>
</tr>
<tr>
<td>Qwen3.6-35B-A3B</td>
<td>35B-A3B</td>
<td>Q5_K_XL</td>
<td>25G</td>
<td>llama.cpp</td>
<td>8060S</td>
<td>946.44</td>
<td>50.77</td>
</tr>
<tr>
<td>Qwen3.6-27B</td>
<td>27B</td>
<td>AWQ-6Bit</td>
<td>26GB</td>
<td>vLLM</td>
<td>4090</td>
<td>2557.59</td>
<td>115.47 (with MTP)</td>
</tr>
<tr>
<td>Qwen3.6-27B</td>
<td>27B</td>
<td>UD-Q6_K_XL</td>
<td>25GB</td>
<td>llama.cpp</td>
<td>4090</td>
<td>2402.65</td>
<td>33.88</td>
</tr>
<tr>
<td>Qwen3.6-27B</td>
<td>27B</td>
<td>UD-Q4_K_XL</td>
<td>17GB</td>
<td>llama.cpp</td>
<td>R9700</td>
<td>914.31</td>
<td>26.56</td>
</tr>
<tr>
<td>Qwen3.6-27B</td>
<td>27B</td>
<td>UD-Q4_K_XL</td>
<td>17GB</td>
<td>llama.cpp</td>
<td>8060S</td>
<td>281.44</td>
<td>11.83</td>
</tr>
</tbody>
</table>
<h2>结论</h2>
<p dir="auto">这个结果其实就和特哥常常讲的一样，有多少钱卖多少钱的设备：买贵的吃不了亏，买便宜的占不了太多便宜。<br />
以Qwen3.6-27B为例：</p>
<ol>
<li>跑在AI MAX 395的8086S上，PP才281个，吐字才11个，这个机器14000RMB，你买到了128G的大显存，还得到了一台不错的windows/linux主机，但是速度没法和独立显卡相比；</li>
<li>跑在R9700上，PP一下子914个，吐字有26个每秒，这才是可用的速度，但代价是11000RMB；</li>
<li>跑在4090上，这生态上的优势马上就出来了，用vLLM打开成熟的MTP支持，多请求PP一下子2557个，吐字115个（不要去折腾A卡的vLLM了，我尝试过，Qwen3.6支持度不行，上下文有限， 单请求速度不如llama.cpp），即使跑在llama.cpp上，PP速度也能到2402，只是吐字速度稍慢，才33个（受限与1TB显存带宽以及没有成熟的MTP）。这个卡30000RMB左右，比R9700贵了2倍左右，但你得到的效果也是2倍。</li>
</ol>
<p dir="auto">所以最后还是看自己，显卡这个市场现在基本上是一分钱一分货（除非被骗），不要纠结。自己想干啥，就买啥。</p>
<h1>备注！AI MAX 395现在要重新评价它了，现在涨价到21000左右了，性价比已经比14000的时候低很多了！</h1>
]]></description><link>https://lcz.me/topic/143/分享-4090-48g-r9700-32g-ai-max-395-8060s-跑大语言模型的实测数据</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 06:08:40 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/143.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 14 May 2026 13:47:55 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Mon, 18 May 2026 14:59:30 GMT]]></title><description><![CDATA[<p dir="auto">R9700还是在我意向购买的最终目标中，因为架构更新，未来支持更久，虽然慢点，但可以支持4卡并联，性价比也高。</p>
]]></description><link>https://lcz.me/post/2430</link><guid isPermaLink="true">https://lcz.me/post/2430</guid><dc:creator><![CDATA[linghu007]]></dc:creator><pubDate>Mon, 18 May 2026 14:59:30 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Sat, 16 May 2026 09:06:57 GMT]]></title><description><![CDATA[<p dir="auto">牛逼啊.... 感谢楼主分享.<br />
祝楼主福如东海,寿比南山.</p>
]]></description><link>https://lcz.me/post/1974</link><guid isPermaLink="true">https://lcz.me/post/1974</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Sat, 16 May 2026 09:06:57 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Fri, 15 May 2026 20:39:57 GMT]]></title><description><![CDATA[<p dir="auto">這真的是超級乾貨了...一百個讚</p>
]]></description><link>https://lcz.me/post/1908</link><guid isPermaLink="true">https://lcz.me/post/1908</guid><dc:creator><![CDATA[Pita]]></dc:creator><pubDate>Fri, 15 May 2026 20:39:57 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Fri, 15 May 2026 11:11:27 GMT]]></title><description><![CDATA[<p dir="auto">实测R9700，和楼主说的一样，跑qwen3.6-27b-q4挺慢的</p>
]]></description><link>https://lcz.me/post/1825</link><guid isPermaLink="true">https://lcz.me/post/1825</guid><dc:creator><![CDATA[xiaopbro]]></dc:creator><pubDate>Fri, 15 May 2026 11:11:27 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Fri, 15 May 2026 04:07:26 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/james-wei" aria-label="Profile: James-Wei">@<bdi>James-Wei</bdi></a> <a href="/post/1719">说</a>:</p>
<p dir="auto">我是395用户，最近上了MTP，体验感好了很多，Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s，Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s，APEX-balance量化可以跑到75t/s， Qwen3.6-27B-Q4KXL可以跑到25t/s</p>
</blockquote>
<p dir="auto">对。我也测试过那个PR，MTP确实是对TG速度效果显著。目前还有些限制，必然PP速度降低，多模态功能被抹掉，我就暂时不上，坐等MTP合入llama.cpp主线，然后AI MAX 395就能凭空性能翻倍了。</p>
]]></description><link>https://lcz.me/post/1747</link><guid isPermaLink="true">https://lcz.me/post/1747</guid><dc:creator><![CDATA[Fred]]></dc:creator><pubDate>Fri, 15 May 2026 04:07:26 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Fri, 15 May 2026 00:18:25 GMT]]></title><description><![CDATA[<p dir="auto">我是395用户，最近上了MTP，体验感好了很多，Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s，Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s，APEX-balance量化可以跑到75t/s， Qwen3.6-27B-Q4KXL可以跑到25t/s</p>
]]></description><link>https://lcz.me/post/1719</link><guid isPermaLink="true">https://lcz.me/post/1719</guid><dc:creator><![CDATA[James Wei]]></dc:creator><pubDate>Fri, 15 May 2026 00:18:25 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Thu, 14 May 2026 16:47:44 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> <a href="/post/1686">说</a>:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/fred" aria-label="Profile: Fred">@<bdi>Fred</bdi></a> 赶紧补图，我好白嫖一期，你这配置怎么能算误导呢？再说了，还得看我怎么写视频脚本对吧。</p>
</blockquote>
<p dir="auto">行。明天我再硬件板块那个原贴里补些细节图。</p>
]]></description><link>https://lcz.me/post/1688</link><guid isPermaLink="true">https://lcz.me/post/1688</guid><dc:creator><![CDATA[Fred]]></dc:creator><pubDate>Thu, 14 May 2026 16:47:44 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Thu, 14 May 2026 16:45:42 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/fred" aria-label="Profile: Fred">@<bdi>Fred</bdi></a> 赶紧补图，我好白嫖一期，你这配置怎么能算误导呢？再说了，还得看我怎么写视频脚本对吧。</p>
]]></description><link>https://lcz.me/post/1686</link><guid isPermaLink="true">https://lcz.me/post/1686</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 14 May 2026 16:45:42 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Thu, 14 May 2026 14:27:40 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/david-zhang" aria-label="Profile: David-Zhang">@<bdi>David-Zhang</bdi></a> <a href="/post/1640">说</a>:</p>
<p dir="auto">作业牛逼，可以置顶！</p>
</blockquote>
<p dir="auto">谢谢看帖和肯定！</p>
]]></description><link>https://lcz.me/post/1647</link><guid isPermaLink="true">https://lcz.me/post/1647</guid><dc:creator><![CDATA[Fred]]></dc:creator><pubDate>Thu, 14 May 2026 14:27:40 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Thu, 14 May 2026 14:27:05 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/terry" aria-label="Profile: terry">@<bdi>terry</bdi></a> <a href="/post/1641">说</a>:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/fred" aria-label="Profile: Fred">@<bdi>Fred</bdi></a> 我草，这绝对精华帖子，我要做一个单独视频，给老弟署名。你给弄几张 截图啊，最好是黑乎乎的背景，显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接，让大家来膜拜下你。</p>
</blockquote>
<p dir="auto">哈哈不用单做视频特哥。我经常看你油管，学到很多东西，想着回报一下你。我的资料你随便用在视频里面。我是属于那种闲散玩法，比较佛系，有时间就来吹吹牛逼，分享点内容。不过我这个配置是有误导性的：<strong>不推荐显卡坞，有条件一定是尽量PCIE直连</strong>。我这是属于放养式玩法，不是生产力的标配，可靠性，性能都比PCIE直连差点意思。</p>
]]></description><link>https://lcz.me/post/1645</link><guid isPermaLink="true">https://lcz.me/post/1645</guid><dc:creator><![CDATA[Fred]]></dc:creator><pubDate>Thu, 14 May 2026 14:27:05 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Thu, 14 May 2026 13:55:33 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/fred" aria-label="Profile: Fred">@<bdi>Fred</bdi></a> 我草，这绝对精华帖子，我要做一个单独视频，给老弟署名。你给弄几张 截图啊，最好是黑乎乎的背景，显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接，让大家来膜拜下你。</p>
]]></description><link>https://lcz.me/post/1641</link><guid isPermaLink="true">https://lcz.me/post/1641</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 14 May 2026 13:55:33 GMT</pubDate></item><item><title><![CDATA[Reply to 分享：4090&#x2F;48G, R9700&#x2F;32G, AI Max 395 (8060S) 跑大语言模型的实测数据 on Thu, 14 May 2026 13:52:31 GMT]]></title><description><![CDATA[<p dir="auto">作业牛逼，可以置顶！</p>
]]></description><link>https://lcz.me/post/1640</link><guid isPermaLink="true">https://lcz.me/post/1640</guid><dc:creator><![CDATA[David Zhang]]></dc:creator><pubDate>Thu, 14 May 2026 13:52:31 GMT</pubDate></item></channel></rss>