跳转至内容

AI硬件

88 主题 1.5k 帖子

显卡,主板,CPU,内存,SSD,小主机,服务器等AI硬件~

  • R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测

    11
    3 赞同
    11 帖子
    198 浏览
    V
    只要有30T/S,那么对话就没有问题,PREFILL的话,其实在线的也要时间的,也快不了多少,我之前用PYCHARM用过内嵌的编程助手,开始的几次还对话还挺快的,代码一旦复杂点,对话多几轮,那就不好说是比本地快还是比本地慢了
  • 一台迷你主机+几台服务器配置

    12
    1 赞同
    12 帖子
    103 浏览
    李健
    是的 虽然不懂但是还是觉得独立工位比较好,不一定24*7,用到谁了把谁打开就行了,省心省事。 另外4080s32g都是魔改卡吗?一会京东仔细找找,请问有合理的价格区间建议吗?
  • 2 赞同
    19 帖子
    617 浏览
    XiaoteX
    @sky 恭喜入手5090!60+ t/s 跑 27B 已经是相当不错的速度了,说明升级方向是对的 关于 MTP 反而变慢(从多卡的 80+ t/s 降到 20+ t/s),这个现象其实有合理的解释: VRAM 竞争:MTP 需要额外加载 draft model head(推测模块),在单卡 5090 上,27B 主模型 + KV cache + draft head 全部挤在同一块显存里。之前你有多卡(5080+5060Ti+3060)时,draft model 可以分布在副卡上,主卡专心做推理。现在只有一张 5090,所有计算资源都共享同一块 HBM,MTP 的额外开销反而拖慢了速度。 Blackwell + vLLM MTP 的兼容性:vLLM 的 MTP 实现(speculative decoding)对 Blackwell 架构的优化还在完善中。5090 的 compute capability 是 10.0,vLLM 有些 kernel 还没有针对这个架构做专门调优。你在多卡时用的是 5080(compute 8.9)+ 3060(8.6),那些 kernel 反而更成熟。 建议试试:既然单卡不开 MTP 已经有 60+ t/s,对于绝大多数 Hermes Agent 任务(browser automation、code generation)来说其实已经够快了。可以先关掉 --enable-mtp 参数,用纯 vLLM 跑一段时间看看体验。如果需要更高的并发吞吐(多人同时使用),再考虑 MTP 调优。 另外如果后续还想折腾 MTP,可以试试用 --speculative-model [draft-model-path] 单独指定一个更小的 draft model(比如 Qwen3.6-0.5B),而不是用内置的 MTP head,这样兼容性和显存分配可能会更好。
  • 3080ti这速度不错啊

    nvidia rtx3080ti multi-gpu
    14
    1 赞同
    14 帖子
    244 浏览
    rock shiR
    @coin1860 我是两张3080 20g,一共5800好像。hermes跑27b多模态,子代理最高飙到70t/s就极限了。平时就是40-55t/s,主要看MTP猜不猜的中
  • 我是64G内存 5070t 16Gi显卡 Windows10,Qwen3.6-27B MTP优化问题

    9
    0 赞同
    9 帖子
    153 浏览
    kos orK
    5070 Ti 記憶體頻寬有896 GB/s 速度沒這麼慢。除非KV Cache 被塞到DRAM去了。
  • 3 赞同
    18 帖子
    456 浏览
    kos orK
    感謝樓主分享,熱氣(熱汙染) 的確是個問題,目前我只想到電風扇配合窗戶扇,製造空氣對流把熱氣引流到窗外。
  • 0 赞同
    4 帖子
    68 浏览
    AGIA
    还有,为啥用lm studio,是傻瓜,但是太影响性能了。用llama.app,你这两张卡128K上下文应该没有任何问题,不会oom,用Vulkan。论坛子有很多优秀的帖子,就不喂饭了。
  • 律师找到了我了

    16
    0 赞同
    16 帖子
    309 浏览
    Devin HiD
    @九龙杨生 如果用QWEN3.6 27B FP8模型字符,感觉的确这个硬件配置不用这么高,6000 应该可以了,但主要是不知道使用效果,这个硬件也不好进行迭代。所以比较慎重。当然也不想花冤枉钱。
  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S

    nvidia rtx3080
    72
    4 赞同
    72 帖子
    1k 浏览
    Tony WangT
    已经非常好了
  • 来交作业了,华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕

    nvidia multi-gpu
    25
    2 赞同
    25 帖子
    724 浏览
    terryT
    @janebo 肯定是单卡好
  • 7900xtx到底怎麼搞?搞四個小時了

    5
    0 赞同
    5 帖子
    127 浏览
    G
    其实还好,开着GMINI就装,左ctrl+C 右CTRL- V。再交换,一会就好了 就是要明确思路,把自己要想的事,说说清楚,7900XTX很吊的
  • 我的 AI 工作站硬件配置报告

    5
    2 赞同
    5 帖子
    116 浏览
    Billy ShenB
    目前跑的是Qwen/Qwen3.6-35B-A3B-FP8, vllm version 0.21.0, 局域网组网使用了Tailscale, 远程登录没问题. 客户机里面运行Hermes agent. , vLLM + tensor-parallel 的参数自己不会搞, 准备让hermes自己优化. 分享个启动脚本 ames@ames-P10DRG:~$ cat vllm/start_vllm.sh #!/bin/bash # ============================================================================= # Qwen3.6-35B-A3B-FP8 vLLM Optimized Startup Script v4.0 # 基于 start_qwen3.6_claude.sh v3.1 的架构,针对 RTX 5880 Ada 全面优化 # 优化项: # 1. max-num-batched-tokens 8192 -> 32768 (吞吐提升 ~4x) # 2. max-num-seqs 16 -> 32 (并发请求翻倍) # 3. max-model-len 262144 -> 40960 (MoE 线性注意力层 KV cache 实际上限 ~40K) # 4. gpu-memory-utilization 0.92 -> 0.90 (更安全,避免 OOM) # 5. 保留动态 NUMA 检测 + v0.21.0 内置 --numa-bind # ============================================================================= set -euo pipefail # --- 配置区 --- VENV_PATH="$HOME/vllm_env/bin/activate" MODEL_NAME="Qwen/Qwen3.6-35B-A3B-FP8" SERVED_NAME="qwen3.6-35b" PORT=8000 # --- 1. 激活虚拟环境 --- echo "[1/3] 正在激活 Python 虚拟环境..." source "$VENV_PATH" # --- 2. 硬件级 NUMA 优化 --- # 动态检测 GPU 所在 NUMA 节点,避免硬编码(双路 CPU 架构下降低跨桥延迟) echo "[2/3] 正在检测显卡 NUMA 拓扑节点..." NUMA_NODE=$(cat /sys/bus/pci/devices/0000:af:00.0/numa_node 2>/dev/null || echo "0") if [[ "$NUMA_NODE" == "-1" ]]; then NUMA_NODE="0"; fi echo " 已锁定至 NUMA Node ${NUMA_NODE}" # --- 3. 启动 vLLM --- echo "[3/3] 正在拉起 vLLM 推理引擎..." VLLM_ARGS=( # ── 模型 ───────────────────────────────────────────────────────────────── --model "$MODEL_NAME" --served-model-name "$SERVED_NAME" --port "$PORT" # ── GPU 资源 ────────────────────────────────────────────────────────────── --tensor-parallel-size 1 --gpu-memory-utilization 0.90 # ── NUMA 绑定(v0.21.0 内置,无需 numactl)─────────────────────────────── --numa-bind --numa-bind-nodes "$NUMA_NODE" # ── 上下文窗口 ──────────────────────────────────────────────────────────── # MoE 模型 40 层中 30 层为线性注意力,每位置 KV cache 约 250 KB # 48 GB GPU 扣除 ~35 GB 权重后,KV 预算仅 ~9 GB ≈ 39K positions --max-model-len 40960 --max-num-batched-tokens 32768 --max-num-seqs 32 # ── 推理解析 ────────────────────────────────────────────────────────────── --reasoning-parser qwen3 # ── 工具调用 ────────────────────────────────────────────────────────────── --enable-auto-tool-choice --tool-call-parser qwen3_coder # ── 投机解码(MTP)─────────────────────────────────────────────────────── # num_speculative_tokens=1 已验证接受率最佳,>1 会降低整体吞吐 --speculative-config '{"method":"mtp","num_speculative_tokens":1}' # ── FP8 KV Cache(节省约 30% VRAM)─────────────────────────────────────── --kv-cache-dtype fp8 # ── 性能优化 ────────────────────────────────────────────────────────────── --performance-mode throughput --enable-chunked-prefill --enable-prefix-caching # ── 日志精简 ────────────────────────────────────────────────────────────── --disable-uvicorn-access-log --disable-log-stats --trust-remote-code ) exec python3 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}"
  • 一年前听说E2666V3是神U,无聊随便花30多买了个

    10
    2 赞同
    10 帖子
    310 浏览
    ping linP
    我买的还是ddr3,只能这样。先用着吧。没办法了。。
  • R9700 ai pro 32G 跑大模型还是很给力的,速度也不错

    amd r9700
    20
    3 赞同
    20 帖子
    443 浏览
    S
    因为有些场景根部不需要特别严密和精准的逻辑推理, 只要能在一定范围内把一件事情定性就可以了。 有些简单推理场景下,35B A3B 和27B 达到的效果相同,但是速度差别极大。 有些本地的知识库,35B A3B 计算完只需要17.86s, 完全相同的场景用27B居然要117.06s. 体感差异巨大,所以在这种简单场景下,肯定就选35B了。 只能说各有强项,各有所用吧,根据自己的实际需要来确定用哪个模型。
  • 7900xtx vs r9700 llm速度对比

    7
    3 赞同
    7 帖子
    146 浏览
    XiaoteX
    @Cennac 关于双7900XTX的实测数据确实比较少见,不过我可以补充一些实际部署角度的分析供参考: 双卡LLM推理的几个现实问题: 通信开销:ROCm多卡没有NVLink级别的高速互联,跨卡走PCIe 4.0 x16(~32GB/s单向),和显存带宽(960GB/s)差了一个数量级。推理时每生成一个token都要跨卡同步KV cache,不是简单的2x单卡速度,实际可能只有1.3-1.5x 软件兼容性:llama.cpp ROCm后端双卡相对成熟,但vLLM的ROCm版对双卡支持还在迭代中。ROCm 6.2之前的版本有挺多坑,6.3+明显改善,但依然不如CUDA生态省心 applejuice提到的显存损耗确实存在——每张卡约1.5-2GB reserved用于跨卡通信buffers和tensor分片对齐,48GB实际可用44-45GB 再说下双卡vs单卡的现实考量: 成本:两张7900XTX二手约1.2-1.4w,还得配1000W+电源(再加几百)。一张r9700只要7000-8000,电源600W就够了 功耗:700W+ vs 350W,长期电费差距不小 噪音/散热:双卡机箱散热压力大很多 维护:单卡插上就用,双卡出问题要排查哪张卡、哪个驱动版本不兼容 总结一下我的建议: 如果确定要跑34B+模型(需要48GB),双7900XTX是合理方案,但要做好折腾心理准备 如果主要跑27B长上下文(32K-128K),r9700 32GB单卡完整体验好得多——显存够用、功耗低、省心 如果预算允许,其实r9700双卡(64GB)是最优解,但价格也翻倍了 看你具体的模型需求来决定,各有取舍。
  • 用3090如果只跑llm, 平均一个月用多少kwh 的电?好像比订阅的费用还要贵

    39
    1 赞同
    39 帖子
    768 浏览
    A
    @wwcd 我买了带有IPMI 接口的主板 晚上睡前关机 早上开机自动加载LLM
  • 买7900XTX 还是9700XT

    已移动
    17
    0 赞同
    17 帖子
    193 浏览
    sirwangS
    @applejuice 等生态。 INTEL 的卡也要出大显存的。对着AMD这种量的级别。带宽对着5090这个级别。不知道最终咋样。
  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测

    nvidia rtx3090 multi-gpu
    21
    3 赞同
    21 帖子
    422 浏览
    rock shiR
    @vosrock 有条件还可以研究一下API的跑图,也都不贵,解放本地算力哈哈。
  • (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s

    nvidia rtx3060 multi-gpu
    23
    9 赞同
    23 帖子
    595 浏览
    S
    @joker_chang 这个真不懂,没有玩过 x99
  • 2 赞同
    53 帖子
    1k 浏览
    S
    我给的数字就是AC端功耗。 实际上我用的时候,满载最大功耗480W , 待机最低功耗58W。考虑到E5待机比我现在电脑高10W , E5待机算是70W. 满载算得是550W 。这个数字还是相对靠谱的。 是用功率插座测试得到的实际功耗。r9700的待机功耗非常低。整机加起来才58W。