跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

yesen19771004Y

yesen19771004

@yesen19771004
关于
帖子
8
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。
    yesen19771004Y yesen19771004

    @VS-Studio 很正常,我的amd小主机,780m跑他都有30多 t/s。

    AI Agent

  • 用3090如果只跑llm, 平均一个月用多少kwh 的电?好像比订阅的费用还要贵
    yesen19771004Y yesen19771004

    @mankit-fu 其实opencode go还是在按token打折卖,并不是原来那种计算请求次数的方式。有人算过,opencode的deepseek v4 flash相当于官方api价格的8折,所以如果你配了机器不多用,机器配置的费用就白瞎了,如果你配了机器用得很多,肯定是比coding plan划算的。当然,你这个电费是有点高的。如果你用量不大,一天干不过1000万token,搞个coding plan算了。

    AI硬件

  • AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。
    yesen19771004Y yesen19771004

    @张老师 跑模型就没有安静的。GPU总是会占满,非常吵闹。我的小主机那个小风扇也会有点吵,如果是涡轮风扇得吵死。非放到单独的房间不可。不过24G内存我也担心有点不够,64K上下文,也让人担心。过一个月想配一台像样的主机,现在逛论坛,看视频,多学习,多交流,争取到时候能找到一个甜点配置。

    AI硬件

  • 4090 48G+Ubuntu26.04装好了,下一步Hermes还是comfyui
    yesen19771004Y yesen19771004

    Hermes要求很低,随便搞个小机器都可以跑,只要小机器可以7*24小时开机就没问题。搞个云主机也是可以的。云主机还可以快照备份,也是不错的选择。不然弄个软路由的机器,甚至raspberry pi这样的小机器也一样跑。我就用的是一台minisforum的小主机。

    AI硬件

  • AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。
    yesen19771004Y yesen19771004

    @terry 编译了支持mtp的llama.cpp分支,跑起了mtp,可以加载3层,现在能做到生成30,但pp速度降到250左右了。先这样跑着吧。

    AI硬件

  • AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。
    yesen19771004Y yesen19771004

    @terry 是呀。在想着弄3090 24G来跑Qwen3.6 27B呢。希望论坛中多一些讨论,回头让我的AI来学习。

    AI硬件

  • 买了2张5060Ti,谁能跑最便宜的Qwen 27B?
    yesen19771004Y yesen19771004

    @Tide 上下文64K有点不够,128K就很棒。不过估计再几个月,用V4架构的新的小模型出来,上下文就足够大了。

    AI硬件

  • AMD 780M小主机,64G内存跑Qwen 3.6 35B,需要优化建议。
    yesen19771004Y yesen19771004

    下面是我的软硬件配置:

    ┌───────────┬─────────────────────────────────────────────────────────────────────┐
    │ 组件 │ 型号/规格 │
    ├───────────┼─────────────────────────────────────────────────────────────────────┤
    │ CPU │ AMD Ryzen 7 8845HS(8核16线程,最大睿频5.14GHz,含Radeon 780M核显) │
    ├───────────┼─────────────────────────────────────────────────────────────────────┤
    │ GPU │ AMD Radeon 780M(集成显卡,HawkPoint1) │
    ├───────────┼─────────────────────────────────────────────────────────────────────┤
    │ 内存 │ 64GiB DDR(BIOS设置16G专用显存,运行llama.cpp+Qwen3.6 35b后,约23GiB空闲) │
    ├───────────┼─────────────────────────────────────────────────────────────────────┤
    │ 硬盘 │ SK海力士 HFS512GEJ9X115N(512GB NVMe SSD) │
    ├───────────┼─────────────────────────────────────────────────────────────────────┤
    │ 主板/整机 │ GMKtec NucBox K8 Plus(迷你主机) │
    ├───────────┼─────────────────────────────────────────────────────────────────────┤
    │ 操作系统 │ Ubuntu(Kernel 7.0.0-15-generic,x86_64) │
    └───────────┴─────────────────────────────────────────────────────────────────────┘

    用vulkan在llama.cpp上跑Qwen3.6 35b,设置了100K上下文(因为太大了,后面很可能跑不动,小一点轻量任务反而更友好,agent到限额也会auto compact,中型任务也可以跑跑),开了flash attention, KV设置成q4_0,40层都放到了显卡上。

    llama bench结果pp2048(预填充) 304.49 ± 1.32,tg128(生成) 22.22 ± 0.08

    目前在agent里勉强是可以用的。有没有大佬知道如何能再优化优化?试过Qwen3.6的MTP在llama.cpp上搞不通。

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组