抡锤者

williamlouis

六月八日下午：
到货，拍摄开箱视频。留存。防止后期纠纷。
开箱后查看SN码。发现是A25开头怀疑是旧卡。仔细观察金手指。有明显使用痕迹。观察其他部件没有长期烤鸡痕迹。联系客服。客服让官网注册保修。显示为2026年6月1日。思考后点了收货。大概率是官返品。我认为可以接受。反正有3年保修。

时间紧张。还有工作没搞。（就是真没搞，又突发了情况）
装上显卡后发现电源是2*8pin 输出。电源功率是够大。但是单线路输出不足。这块就是我自己记错了。以为有3路输出。没办法停工，去京东拍了个振华3代1000W。注意：只有这款是振华最便宜直接3路输出带3条线。其他低瓦数的也可以用。就是线只有2条。节约时间直接上这个了。关于电源的问题。一次性讲清。1托2显卡供电能不能用。答案是可以的。但是在显卡峰值工作的时间。线路会发热。小品牌电源盒可能会冒烟。我就是用1托2接法暂时点亮了显卡。看了下显卡的芯片。体质测试只能明天跑了。记录下折腾配置

部件	型号/规格
CPU	Intel i7-4790K（LGA1150，4核8线程）
主板	技嘉 Z97-HD3（Z97芯片组，PCIe 3.0）
内存	32GB DDR3
显卡	蓝宝石 RX 7900 XTX 白金版 24GB（目前1张，计划再加1张）
硬盘	1TB 固态
电源	现有电源（8Pin供电为1托2转接，功率偏紧张）
系统	准备/已装 Ubuntu 24.04 Server（Linux）
用途	本地AI算力，跑 Qwen3.6-27B 等开源大模型

其他计划折腾设备简介：路由：Gl inet BE6500.电脑：Mac mini M4 32G版。IBM 笔记本2台集成显卡工作本。Windows 系统 Linux mint 23 系统。华为 M5 平板一台鸿蒙系统。步步高平板一台安卓系统。iPad 9 一台 iOS系统。网络连接 DMIT BWG 一主一备防止与管理的20台服务器失联。外援在线算力：claude 4.7 DeepSeek V4 pro。其他已经放弃。
静待明日更新。

williamlouis

一.
要求规格
Node.js 18 or higher
Python 3.10+（推荐使用 3.11）或 Windows 便携版
NVIDIA GPU 4GB+显存（无需LLM即可运行），建议12GB+显存（需配合LLM使用）
CUDA 12.8（适用于 Windows 便携包）
FFmpeg 用于音频处理
紫外线 Python 包管理器（推荐用于标准安装）
二.
AI音乐生成
特征描述
全歌曲生成创作时长不超过 4 分钟的完整歌曲，包含人声和歌词。
乐器模式生成不含人声的纯音乐曲目
自定义模式微调 BPM、调性、拍号和持续时间
样式标签定义流派、情绪、节奏和乐器配置
批量生成一次性生成多个变体
人工智能增强将流派标签丰富为包含正确 BPM/调性/时间的详细描述。
思考模式让人工智能推理结构并生成音频代码
三.

ACE-Step & ACE-Step UI 完整本地部署指南

ACE-Step UI 是一款开源的 AI 音乐生成专业图形界面，作为 Suno 的完美替代方案，它基于强大的 ACE-Step 1.5 引擎。通过本指南，您可以完全在本地（免费、无限制、私有化）部署这一套强大的 AI 音乐生成环境。

核心特性 (Features)

完全免费且本地运行：摆脱订阅费用，无需联网即可在本地 GPU 上完成推理。
完整的音乐生成能力：支持生成带人声、歌词的完整歌曲（长达 4 分钟以上），支持纯音乐模式。
️ 高度自定义：精细控制 BPM、调式（Key）、拍号及歌曲风格标签（Style Tags）。
🧠 AI Enhance (智能增强)：内置 LLM 增强模式，将简单的标签自动扩写为高质量的音乐提示词。
专业级类 Spotify 界面：支持深/浅色模式、播放列表管理、实时生成进度队列。
️ 内置音频工具：集成 AudioMass 音频编辑器、Demucs 音轨分离以及视频背景生成等进阶功能。

0. 前置环境与目录规划

为了避免路径错误，本指南统一将主目录设置在 D:\AI 下。

1. 安装 Visual Studio Build Tools 2026

运行安装程序。
勾选所需组件：仅需勾选 “使用 C++ 的桌面开发”。
关键步骤（修改路径）：点击上方的“安装位置”，将路径全部改到 D:\Microsoft Visual Studio。

️ 注意：安装路径名称不能和缓存路径名称相同。
点击右下角的“安装”并等待完成。

2. 下载并配置依赖工具 (Node.js & FFmpeg)

新建工具文件夹：D:\AI\tools
配置 Node.js：
- 前往官网下载 Node.js 的 独立文件.zip 二进制版（不要下载 .msi 安装程序）。
- 将其解压到 D:\AI\tools 目录下。
- 将解压后的文件夹重命名为更短的名字：node。
配置 FFmpeg：
- 下载 Windows 版本的 .exe 压缩包（请选择带 full 的完整版）。
- 将其解压到 D:\AI\tools 目录下。
- 将解压后的文件夹重命名为：ffmpeg。

3. 配置终端启动脚本

在 D:\AI 文件夹内新建一个名为 start_dev.bat 的脚本文件。
(双击运行该脚本时，它会打开一个终端并自动安装必要的依赖，完成后终端的工作路径应指向 D:\AI。接下来的所有步骤，都需要通过双击此脚本打开的终端来进行。)

️ 1. 部署后端模型 (ACE-Step-1.5)

双击运行 start_dev.bat 打开终端，执行以下命令：

:: 切换到 AI 目录
cd /d D:\AI

:: 克隆后端仓库
git clone https://github.com/ace-step/ACE-Step-1.5
cd ACE-Step-1.5

:: 使用 uv 同步环境 (会自动下载完整版 Python 到 D:\AI\tools\uv_python)
uv sync

:: 启动 AI 核心服务
uv run acestep --port 8001 --enable-api --backend pt --server-name 127.0.0.1

成功标志：当终端提示 API endpoints enabled 时，说明后端已成功启动，运行在 8001 端口。(请保持此窗口开启，不要关闭)

️ 2. 部署 UI 服务端 (Server)

保持刚才的后端窗口运行。重新双击 start_dev.bat 打开一个新的终端窗口：

:: 切换到 AI 目录
cd /d D:\AI

:: 克隆前端 UI 仓库
git clone https://github.com/fspecii/ace-step-ui
cd ace-step-ui/server

:: 安装 Node 依赖
npm install

:: 复制环境变量配置文件
copy .env.example .env

配置环境变量：
使用文本编辑器（如记事本）打开 D:\AI\ace-step-ui\server\.env 文件，找到（或手动添加）以下路径指向配置之一：

ACESTEP_PATH=D:\AI\ACE-Step-1.5
# 或者使用以下配置：
# PYTHON_PATH=D:\AI\ACE-Step-1.5\.venv\Scripts\python.exe

启动 Server 服务：

npm run dev

成功标志：终端显示服务端成功启动，运行在 3001 端口。(请保持此窗口开启)

3. 部署前端 UI (Web 界面)

保持后端和 UI服务端的窗口都在运行。第三次双击 start_dev.bat 打开又一个新的终端窗口：

:: 切换到前端根目录
cd /d D:\AI\ace-step-ui

:: 安装前端依赖
npm install

:: 启动前端界面
npm run dev

成功标志：终端显示前端服务启动，运行在 3000 端口。(请保持此窗口开启)

4. 开始使用 (Usage)

打开您的浏览器，访问前端 UI 本地地址：
http://localhost:3000
页面加载后会显示登录界面，随便输入一个任意的用户名即可登录进入。
进入主界面后，您就可以像使用 Suno 一样，使用类 Spotify 风格的 UI 来尽情创作您的 AI 音乐了！

日常启动说明：
以后每次重新启动电脑后想使用 AI 音乐生成器，您只需按顺序开启三个终端：

启动 ACE-Step (8001 端口)

启动 UI Server (3001 端口)

启动 UI Frontend (3000 端口)

Enjoy your AI music creation!

williamlouis

Kimi K3 的正确使用方式是多 Agent 辩证协同模式。其他的模式没有任何特点。都可以被平替。当然这个平替指的是所有现存的 AI模型。
一关于多Agent 辩证协同模式。烧钱拿结果模式。二者是等同的。这个模式可以做到很多人想象并希望实现的多人格多专精技术多部门多智能体互相辩证讨论，并协同工作。得出一个几乎完美的结果。小游戏小项目需要第三档会员 199 。复杂项目必须 699 四档会员才行。并且在token烧空前需要充值加油包。实测。充加油包是必然结果。KIMI 的黑洞效果等都不是四档会员额度可以直接完成的。
并且这个左右互搏技术耗时非常长。基础4倍。高难度10-20倍耗时。
二这玩意儿不太适合学习。最大弱点。烧钱。非常烧。建议有明确项目及计划在其他模型无计可施的情况下再考虑。
三实测分析。
1.测试小游戏制作。精良级。轻松完成。做工精细。
2.测试普通网站制作。精良级。轻松完成。做工精细。
3.测试复杂项目。肉戏在这。请仔细阅读。提供项目大纲，开始项目实施。耗时30分钟左右。出结果。项目失败。根据 Kimi K3 的失败品。我补充了失败的地方及要改进的意见。第一步可以看到，在没有详细提示词。模糊任务的情况下。K3 也不行。所以任何项目一定要有细节。80%以上的可行性。不然 AI 一样无计可施。重新开工。这次跑了三档会员的 56%额度。为了方便计算。开的新号。数据是准确的。耗时 6-7小时。全程没用我指导。我也全程围观了 KIMI K3 的传奇技能 “左右互搏术”。在任务开始后 2小时出了一版。然后 KIMI 呼叫了4个 Agent 验收。这段就经典了。项目失败。 4个 Agent 通过4个验收线程。验收项目判定不合格。推翻了工作结果。并清退这次干活的5个Agent 。然后根据项目这次验收失败的经验重新召唤新的Agent 应聘。界面就是这么显示的。在20分钟的长跑级招聘。新报道的4个Agent 开工。之后陆续又加入了新人。总共17个Agent 完成了这个项目。并且成品是可以使用的。

总结：KIMI K3 速度不优秀。评价偏慢。token消耗极快。不省钱，评价：它在烧钱上已经战胜了 claude 。实力：再不用K3的情况下，都不如 Qwen 27B 本地。LOW的一批。在不计消耗极限K3 多Agent 模式下。它是非常牛B。在几个项目上拿第一是可能的。

williamlouis

针对漫画我可以提些重要的建议：
一。漫画发展的时间很久了。就目前的市场反响，实体书非名人作品销量都非常低迷。连载中在线订阅是主要的盈利方向。
二。仿制名人风格的作品太多。消费者麻木。买单的很少。建议启用些已经挂掉的名人风格。作品尽量小众。可以迎合一些市场上的风格期待者。能有不错的收获。
三。剧情是重点。多让 AI. 动动脑。剧本是重中之重。是否能成功取决于你的剧本。而不是你的本地算力硬件。

williamlouis

恭喜超凡大师。abaalei 成功进军视频生产力赛道。这是一个很有潜力的赛道。涵盖项目丰富。祝愿他在这条康庄大道上日进斗金。前途似锦。
在此。特宣布将论坛任务一下发给 abaalei 。详情我会私聊他。

williamlouis

AI 产品溢出产能回收计划 & 实战任务发布
为促进 AI 产品的良性发展，有效回收可见的溢出产能，同时为自组团队提供实践目标与实战检验机会，本人（版主 williamlouis）决定以个人名义、佣金制形式发布若干任务，供认可本计划的个人或团队承接执行。本计划为版主个人行为，与论坛官方无关。
一、佣金标准
任务视难度及规模而定，佣金暂定为 100–2000 USD（出资方：版主 williamlouis）。
二、接单规则
每个任务仅限一人或一个团队承接。任务锁定后，仅在执行人失败或主动申请放弃时方可释放。
各任务设有固定执行期限，逾期视为失败/放弃。
任务失败或放弃后，可由其他符合条件者重新申请接手。
三、验收与争议裁定
验收人为版主 williamlouis 本人。
如出现质疑，由第三方介入裁定，裁定结果为最终结论，任何人不得继续争执。
第三方资格：论坛等级「超凡大师」及以上用户担任。
裁定佣金：为任务总佣金的 10%，由版主支付，并从任务佣金中永久扣除。若任务最终搁浅，该部分费用由版主个人承担。
四、资格与保密
每个任务均有倾向性，仅发布过相关帖子的勋章拥有者具备申请资格。（暂定为技术大牛勋章）
版主审核通过后，将与接单方进行具体沟通。
所有任务均为商业渠道输送，不对外公开。请承接方珍视个人信誉与人格，切勿做出有损自身荣誉之事。

请仔细阅读规则，无资格的任何人私聊将放入黑名单。
有意向请优先提升自己在本论坛中的勋章等级。

williamlouis

不能有比这个更LOW的配置了吧？没继续折腾hermes。测试后发现完全没有意思。硬件限制上不到16K 。上了也意义不大。折腾玩下。丰富下社区。
亮点：这个是无限制模型。有兴趣的可以玩玩。
一、测试环境

项目	规格
GPU	NVIDIA GeForce RTX 2060 SUPER 8G (可用显存 7158 MiB)
CPU	Intel Core i7-4790K @ 4.0GHz
内存	32 GB DDR3
系统	Windows (WDDM 驱动模式)
推理后端	llama.cpp b9374 (CUDA 12.4 x64)
测试模型	Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf

二、测试目的

验证 8G 显存消费级显卡在 Windows 环境下运行 35B MoE 大模型的可行性，并压榨出最大上下文长度与稳定生成速度的平衡点。

三、测试过程与数据记录

阶段 1：默认参数（失败）

-ngl 80 -c 4096

显存：逼近 8G 爆满
现象：failed to fit params to free device memory，llama.cpp 自动回退
速度：~7.5 t/s（显存爆满触发内存交换，断崖式下跌）
结论：不可直接用默认参数硬塞

阶段 2：MoE 专家路由优化（部分改善）

-ngl 80 --n-cpu-moe 38 -c 4096

显存：~2.5G（异常偏低）
速度：~15 t/s
问题：显存过低，说明 GPU 层数被过度削减，大量权重滞留 CPU 内存，速度瓶颈在内存带宽而非 GPU

阶段 3：强制显存适配 + 降低 GPU 层数（关键突破）

-ngl 30 --n-cpu-moe 20 -c 4096 -fit off

显存：6.8G / 8G（余量 1.3G）
速度：~15 t/s
结论：-fit off 关闭自动适配后，30 层权重成功驻留显存，进入甜点区

阶段 4：上下文扩容（最终定稿）

-ngl 30 --n-cpu-moe 20 -c 8192 -fit off

显存：7.0G / 8G（余量 1.1G）
速度：~17 t/s
结论：上下文从 4K 提升到 8K，显存仅增加 ~200MB，速度反而微升，达到最佳平衡点

四、最终推荐配置（定稿）

@echo off
cd /d D:\llama-b9374-bin-win-cuda-12.4-x64
llama-server.exe ^
  -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
  -ngl 30 ^
  --n-cpu-moe 20 ^
  -c 8192 ^
  -n 2048 ^
  --no-warmup ^
  -np 1 ^
  --host 127.0.0.1 ^
  --port 8080 ^
  -fit off
pause

五、关键结论

8G 显存跑 35B MoE 可行，但需精确调参
- 不能无脑 -ngl 80，必须配合 -fit off 手动控制显存分配
- --n-cpu-moe 是 8G 卡跑大 MoE 模型的核心参数，负责将非激活专家路由到系统内存
显存甜点区：6.5G ~ 7.2G
- 低于 6G：GPU 层数不足，权重在 CPU，速度受限
- 高于 7.5G：余量不足，Windows WDDM 驱动波动易导致爆显存断崖
Windows WDDM 驱动占用不可忽视
- 可用显存仅 7.1G 左右（8192 MiB 标称，实际空闲 7158 MiB）
- 同配置在 Linux 下预计可多出 500MB~1G 可用显存，有望稳定 16K 上下文
上下文与速度并非完全负相关
- 本例中 4K → 8K 上下文，速度从 15 t/s 微升至 17 t/s，说明之前 4K 时 GPU 利用率未吃满，8K 反而让流水线更饱和
Qwen3.6-35B-A3B 的思考链（thinking）会消耗额外 token
- 复杂 prompt 容易陷入长 reasoning 导致响应延迟
- 建议前端 prompt 加前缀约束："请直接回答，不要输出思考过程"

六、使用注意事项

运行时请勿同时运行大型游戏或视频剪辑软件，1.1G 余量经不起抢占
长期稳定运行建议保持 -c 8192，不要尝试 16K（预估显存需求 8.5G+，必爆）
如需更高速度，唯一出路是换显卡（显存 12G+）或迁移至 Linux 系统

williamlouis

今天刚更新的功能。我的大部分开发都是基于这个指纹浏览器的 API和MCP 做的。但是难度较大。不适合所有人。
今天官方更新了这个 Skill 。Skill 是提供给 AI调用的技能包。通过 Skill，AI 可以直接操作 AdsPower，完成启动浏览器、创建浏览器、更新指纹配置等操作；
适用于 Claude Code/Codex/Cursor/OpenCode/Gemini GL
npx skills add https://github.com/adspower/adspower-browser --skill adspower-browser
适用于 OpenClaw
npx skills add https://github.com/adspower/adspower-browser --skill adspower-browser
重点来了：适用于 Hermes agent
hermes skills install https://github.com/AdsPower/adspower-browser/blob/main/skills/adspower-browser --force
还有个 AdsPower CLI
这个东东我没用过所以不发表言论。
通过 skill 安装浏览器后先让 AI自学一下操作。再安排他浏览器操作类任务。我用的是DeepSeek v4 pro 可用。flash 大家自测。
这个浏览器需要图形界面。AdsPower CLI 应该是服务器版。我的项目用不了。一直没用过大家自测。
桌面版我用了几年了。实现抓取。伪装真人。链接跟踪等编程即可实现。现在可以让 ai 直接上手了。应该非常容易。
好了。祝大家使用愉快。

williamlouis

27B 不能联网搜索的问题。很多人提问。提供一个解决方案吧。在不借用 hermes的情况下如何实现。安装后测试完全可用。建议 32G显存。24G可用但是不能太复杂。
全程使用 kimi k3 1M max 配置
实施时长：1小时。主要原因是网速。网速慢的时候得1.5小时

Qwen3.6-27B 本地部署方案与测试报告

一、环境

项	配置
CPU / 内存	i7-4790K（4C/8T）/ 32 GiB DDR3
GPU	RX 7900 XTX 24 GiB（gfx1100），驱动 amdgpu 6.16.13，ROCm 7.2.0
系统	Ubuntu 24.04，kernel 6.14，磁盘余量 637G
网络	局域网固定 IP 192.168.8.247（路由器锁定）

二、总体架构

浏览器 → Open WebUI (:8080, venv) → dflash_server (:8000, C++/HIP) 
→ 7900 XTX
                                            │
Q4_K_M 主模型 16G + Q8_0 DFlash 草稿 1.8G（DDTree 树验证）

推理引擎：Lucebox DFlash（lucebox-hub 源码编译），块扩散草稿 + DDTree 树验证投机解码
隔离原则：venv 只隔离 Python 工具链（下载/前端）；模型即 GGUF 文件，多模型切换零隔离成本；未用 Docker
启动命令：dflash（模型 API）、dflash-ui（网页前端），GPU 高性能模式随服务启停自动切换（解决空载风扇噪音）

三、安装步骤（可复现）

# 1. 依赖
apt-get install -y git cmake build-essential hipblas-dev hipcub-dev \
  rocblas-dev rocprim-dev rocwmma-dev python3-venv

# 2. 源码
git clone --recurse-submodules https://github.com/Luce-Org/lucebox-hub
cd lucebox-hub/server

# 3. 编译（gfx1100，含 rocWMMA Phase2 prefill kernel）
cmake -B build -S . -DCMAKE_BUILD_TYPE=Release -DDFLASH27B_GPU_BACKEND=hip \
  -DDFLASH27B_HIP_ARCHITECTURES=gfx1100 -DDFLASH27B_HIP_SM80_EQUIV=ON
cmake --build build --target test_dflash dflash_server test_flashprefill_kernels -j4
./build/test_flashprefill_kernels   # 数值验证

# 4. Python 工具（venv）
python3 -m venv ~/venvs/dflash && ~/venvs/dflash/bin/pip install huggingface_hub transformers open-webui

# 5. 模型
hf download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir ~/models/
hf download Lucebox/Qwen3.6-27B-DFlash-GGUF dflash-draft-3.6-q8_0.gguf --local-dir ~/models/draft/

四、关键调优与踩坑记录

坑	根因	解法
官方 bench 速度虚低（41 t/s）	`bench_he.py` 只传 `--ddtree-budget` 不传 `--ddtree`，源码里预算不启用树模式	直接驱动 `test_dflash` 补 `--ddtree`
budget≥16 速度腰斩	verify token 数 >16 触发 TILE kernel（gfx1100 上的慢/不稳路径）	实测甜点 `budget=12`（VEC 路径内 AL 平台期上限）
Q8_0 草稿必需环境变量	滑窗正确性	`DFLASH27B_DRAFT_SWA=2048`
运行中 OOM 崩溃	64K 上下文 KV 全量预分配 + 前缀缓存 32 槽不限量	`MAX_CTX=32768` + `--prefix-cache-slots 8`
前端报超上下文	Open WebUI 发 `max_tokens=32768`	服务端 `--default-max-tokens 8192`（§4.4 钳制，日志已验证）
风扇空载狂转	DPM 常驻 high	启动脚本内 high，退出 trap 回 auto

五、测试报告

测试项	结果
rocWMMA kernel 数值验证	全部 PASS（S=8192：18.3 ms/iter）
AR 基线（`test_generate`）	25.87 tok/s
投机链模式（缺 `--ddtree`）	41.4 tok/s
DDTree budget=12（10-prompt 均值）	44.46 tok/s，AL 4.65，接受率 29.5%，1.72× AR
API 实测：英文代码	53.9 tok/s（接受率 34%）
API 实测：中文对话	19.8 tok/s（草稿为代码优化，中文收益低，属预期）
显存占用（稳定运行）	19.6 / 24 GiB，余量 4+ GiB

注：参考文章的 81 tok/s 未复现，原因有二——其使用 6 月旧版引擎（现行版在 gfx1100 有性能回退），且其 CPU 为双路 E5；本文数据为本机多次实测均值。

六、Web 支持（Open WebUI）

pip install open-webui 装入同一 venv；启动脚本 dflash-ui 注入：
- OPENAI_API_BASE_URL(S)=http://127.0.0.1:8000/v1
- ENABLE_OLLAMA_API=false
访问 http://192.168.8.247:8080，首个注册账号自动成为管理员（数据全在本机）

七、网页搜索实现

原理：模型本身不联网。Open WebUI 中间件在调用模型前先用 DuckDuckGo（ddgs，免 API key，本机直连已验证）检索，把结果注入提示词，模型基于注入内容作答并附引用。

配置落地（两个教训）

该版本配置键为 ENABLE_WEB_SEARCH / WEB_SEARCH_ENGINE（而非旧版 ENABLE_RAG_WEB_SEARCH）；
首次启动会把默认值持久化进 SQLite（…/site-packages/open_webui/data/webui.db），之后 env 改不动——最终直接改库：
- web.search.enable=true
- web.search.engine="duckduckgo"
- result_count=3

使用方式

全局开关只是放行；每个对话需在输入框点 地球图标（代码依据 middleware.py:2456，仅当 features.web_search=true 才执行搜索）。闲聊勿开，免得拖慢首 token。

八、运维速查

dflash                 # 启模型 API（:8000）   Ctrl+C 停
dflash-ui              # 启网页前端（:8080）   Ctrl+C 停
MAX_CTX=65536 PC_SLOTS=2 MAX_TOKENS=16384 dflash   # 长文本临时配置
MODEL=/root/models/xxx.gguf dflash                # 换模型
# 日志：/root/dflash-server.log  /root/webui.log

全部组件已在运行状态，重启机器后按顺序执行 dflash、dflash-ui 即可恢复。

总结：在保证速度的情况下。让模型能够执行网络搜集工作。这个信息时代里，这个功能更加重要。
希望此文能帮助到大家。

williamlouis

恭喜。你拿到论坛里第一个订单。我会在荣誉大厅具体回复你。

williamlouis

项目内容：
自动抓取指定网页的数据。全部采集后按来源分类。分析分类后链接的属性。属性：自然流流量，谷歌广告投放难度分析。
之后开始人工介入选定广告。
重新开始按人工选择生成谷歌ads 的具体投放内容。
发布方提供的资源：美国洛杉矶服务器一台8U8G100G。上传谷歌ads投放服务端源码一套。
佣金规划 500 USD。（溢价区间501-1000USD 需要合理数据支撑。）
项目开发时间：10个工作日（周一至周五为工作日，不含节假日）
接受任务要求：有程序开发经验，有相关帖子发布在论坛。远程面试合格。

williamlouis

折腾了下 windows 11 下 comfly ui。恶补下视频生成技术。直接讲重点。对于系统桌面的需求。单机不能看结果很难受。因为是非工作内容。这台7900XTX 并没接入我的工作网络。状态单身。
首先是 Linux mint 22.3 下测试集显负责桌面显示，视频播放等工作。独立显卡负责算力输出。非常容易。没什么可以讲的。直接让在线AI 全程就可以搞定。
之后切换到 windows 11 场景。十分折腾和我好久没用过也是直接原因。说结果吧。
1.显示器直连独立显卡安装Windows 11
2.安装完成进入Windows 下驱动你的集成显卡。（不放心，或技术一般建议重启一下看看设备管理器。集成驱动是否正常。）
3.关机进入bios 将集成显卡设置为主显卡。显示器接到主板的集成显卡接口，从集成显卡进入系统。
3步这是我测试后的方案。错误过程直接省略吧。
这个布局对 comfly ui 有非常显著的提升。在你需要桌面的情况下。

williamlouis

DeepSeek API 文档 ️接入 Agent 工具️接入 Hermes 按步骤就可以Hermes 接入 DS了。精度要求高就选 pro。省钱就选 flash 就可以了。当然 flash 也很好用。主要就是精度差点。大部分人是无感的。

williamlouis

我补充的方案：对。7900XTX 只暴露算力模式接口，Hermes 负责调度。

7900XTX 算力节点准备

两个 systemd 服务单元（互斥，同一端口）：

/etc/systemd/system/[email protected]：

[Unit]
Description=LLaMA Server %i mode
After=network.target

[Service]
Type=simple
ExecStartPre=/bin/sleep 2
ExecStart=/usr/local/bin/llama-server \
  -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
  -ngl 99 --no-warmup --host 0.0.0.0 --port 8080 \
  %i
Restart=on-failure

[Install]
WantedBy=multi-user.target

启动参数文件：

/etc/systemd/system/[email protected]/override.conf：

[Service]
ExecStart=
ExecStart=/usr/local/bin/llama-server \
  -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
  -c 8192 --cache-type-k q8_0 --cache-type-v q8_0 \
  -ngl 99 --no-warmup --host 0.0.0.0 --port 8080

/etc/systemd/system/[email protected]/override.conf：

[Service]
ExecStart=
ExecStart=/usr/local/bin/llama-server \
  -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
  -c 131072 --cache-type-k q4_0 --cache-type-v q8_0 \
  -ngl 99 --no-warmup --host 0.0.0.0 --port 8080

Hermes 可调用的切换命令

# 切 8K 交互模式
systemctl stop llama-dev@128k; systemctl start llama-dev@8k

# 切 128K 批处理模式  
systemctl stop llama-dev@8k; systemctl start llama-dev@128k

Hermes 切完后等 5 秒，curl http://7900xtx-ip:8080/health 确认恢复即可下发任务。

7900XTX 只暴露 8K/128K 两个 systemd 服务单元，Hermes 根据任务类型 systemctl 切换，等端口恢复后调 API。算力节点无状态，切换逻辑全在 Hermes 侧。
这样基本就可以跑了。具体效果我会出一版帖子。
这个方案可以实现工作机 Mac mini Hermes 工作的需要。

williamlouis

1.内存(模型权重占用)=参数规模️每个参数的位深÷8。比如我们32B模型，量化方式是4-bit，所以需要的内存就是:
32x4÷8=16G

核对自己的配置选用即可。
2.KV Cache .在实际运行中，KV Cache(上下文缓存)会随对话增长额外吃掉数GB内存，这是32B成为"临界点"的真正原因。就是不要顶住你的配置是跑。一定会越跑越慢。
3.推理速度(Tokens/s)=内存带宽÷模型运行的实际大小

结尾：用OMLX配合Qwen3.5-35b-a3b-4bit-mlx，是可以稳定跑出30~35tokens/s。如果是多线程，OMLX的基准测试是可以到90tokens/s。
重点1:选对推理引擎，OMLX当下非常好
重点2:选对模型，要点:moe+mlx。像我的32G的M4 Macmini,跑24b-A3b模型，是可以跑到50~60tokens/s。另外，不是带着thinking/reasoning标签的模型都适合所有任务的，想要体验好，按需求选模型太重要了。

参考。心情好就回答。没回答就是心情不好。
可能很多人问。16G的版本。我直接给个结论省的提问的人太多。
答：可以跑。适合折腾。深度的学习很重要。我提供了重要的线索。剩下的动动脑子就行了。

williamlouis

@CHIA-AN-YANG 我生成一套题目给你
这是一个针毡检索 + 跨文档逻辑推理的复合测试，专门用来验证 128K 上下文是"真长"还是"假长"，同时测智力。

使用方法

保存下面的脚本为 gen_test.py，运行生成测试文本（约 10 万汉字，对应约 12-13 万 tokens）：

import random

FILLERS = [
    "唐代长安城采用中轴对称布局，东西两市商业繁荣，人口峰值超过百万。",
    "量子纠缠现象表明，两个粒子无论相距多远，其量子状态都能即时相互关联。",
    "DNA双螺旋结构的发现标志着分子生物学时代开端，为基因工程奠定基础。",
    "丝绸之路不仅是古代贸易通道，更是东西方文化交流的重要纽带。",
    "深度学习通过多层神经网络模拟人脑信息处理方式，在图像识别领域取得突破。",
    "工业革命始于18世纪英国，蒸汽机改良和工厂制度建立彻底改变了生产方式。",
    "板块构造学说解释了地震与火山形成的根本原因，岩石圈被划分为多个巨大板块。",
    "免疫系统T细胞能识别并攻击被病毒感染的细胞，是适应性免疫应答的核心。",
    "宋代活字印刷术的发明大幅降低了书籍制作成本，推动了知识的大众化传播。",
    "相对论揭示了时间、空间与引力之间的深层联系，彻底改变了经典物理学框架。",
]

def make_filler(n):
    text = ""
    while len(text) < n:
        text += random.choice(FILLERS) + "\n\n"
    return text[:n]

# 三个真实线索分散在不同深度
NEEDLE_A = "【实验日志-张三-3月15日】修正后的产量模型：第1时间单位产量为2，第2时间单位为3，从第3个开始，每个单位产量等于前两个单位产量之和。此模型已通过初步验证。"
NEEDLE_B = "【设备异常-3月20日】操作员李四记录：恒温箱温度超出临界值T达5个单位，当日实验连续运行5个时间单位。"
NEEDLE_C = "【安全备忘-王五-3月20日】单日总产量若超过50，必须立即启动废料处理程序。这是不可逾越的安全红线。"

# 干扰项（测试模型是否会混淆）
DISTRACTOR = "【实习生笔记-赵六-3月18日】标准斐波那契数列为1,1,2,3,5,8...，在自然界中广泛存在，如向日葵花盘排列。"

# 进阶版可选线索（90%位置，测反事实推理）
NEEDLE_D = "【维修记录-3月21日】工程师确认：恒温箱在第5个时间单位结束后发生故障，若未故障可继续运行第6个单位。"

TARGET = 100000  # 约10万汉字

def main():
    part = TARGET // 5
    doc  = make_filler(part) + NEEDLE_A + "\n\n"
    doc += make_filler(part) + NEEDLE_B + "\n\n"
    doc += make_filler(part) + DISTRACTOR + "\n\n"
    doc += make_filler(part) + NEEDLE_C + "\n\n"
    doc += make_filler(part) + NEEDLE_D + "\n\n"  # 不需要进阶版可删掉这行
    doc += make_filler(part)
    
    with open("128k_test.txt", "w", encoding="utf-8") as f:
        f.write(doc)
    print(f"已生成测试文件，总字符数: {len(doc)}")

if __name__ == "__main__":
    main()

把生成的 128k_test.txt 喂给模型，然后提问：

测试题目

问题 1（近端检索）
文档中张三修正后的产量模型，第1和第2时间单位的产量分别是多少？

问题 2（中段检索）
2024年3月20日的实验实际连续运行了几个时间单位？

问题 3（干扰排除）
赵六提到的标准斐波那契数列起始两项是多少？这与张三的模型有何不同？模型是否会被此干扰？

问题 4（核心推理，必做）
根据所有相关记录，计算2024年3月20日的单日总产量，并判断是否需要启动废料处理程序。请详细列出计算过程和所依据的文档来源。

问题 5（进阶反事实，可选）
如果恒温箱没有发生故障，实验继续运行到第6个时间单位，总产量会是多少？是否会触发安全程序？

标准答案与评分

题目	标准答案	评分要点
1	第1单位=2，第2单位=3	答错 = 128K 检索能力不及格，或模型根本没读到 20% 深度
2	5 个时间单位	答错 = 50% 深度丢失
3	赵六：1,1；张三：2,3 起始	若模型用 1,1 计算 = 被干扰项带偏，智力/注意力缺陷
4	序列：2,3,5,8,13；总和 31；31<50，不需要启动	计算错或找不到线索 = 推理链断裂
5	第6单位=21；总和 52；52>50，需要启动	反事实推理，答对说明真正理解而非死记硬背

llama.cpp 运行注意

启动时必须显式指定上下文长度，否则默认只有 4K/8K：

llama-server.exe ^
  -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" ^
  -c 131072 ^
  --host 127.0.0.1 --port 8080

-c 131072 是开启 128K 的关键。
27B Dense + 128K KV Cache 内存消耗很大，如果爆显存就调小 -ngl（减少 GPU 层数），靠内存 offload 顶住。

预期结果：

如果 27B 能在 10 秒内正确回答 1-4 题，说明 128K 上下文和基础智力都达标。
如果 1-3 对但 4 错，说明"能记住但算不对"，智力有瓶颈。
如果 3 被干扰项带偏，说明注意力机制或指令跟随有缺陷。

williamlouis

M4 群众：盖版 32G 改版 24G 丐版 16G 围观下。大家偷乐，你也不比我们强多少哈。哈哈哈哈哈哈。

williamlouis

好多天没来更新了。最近接了很多单子。同时开N个端口操作。
主要是我不太相信AI。所以干活自己是主力。跑题。回到7900 XTX。
又加了一块硬盘。发现学习 comfil ui Windows 是主力。
生产力环境又必须在 Ubuntu 下。
简单的单机双系统方法是 esp 分区下做个启动引导。在开机后选择下你用的系统。
没选择 pve 虚拟机是。这玩意折腾过。长期跑某个项目是可以的。但是开发没有venv 方便。测试也是。所以很多年没试验用它。
总结：需要学习折腾的同志们双系统选择双硬盘。每个硬盘上一个系统是最简单的方案。操作很容易。装好后。在 Linux 下直接告诉 AI 在 esp 写一个就完事。用DeepSeek V4 大约花费 1分钱。当然节俭大能可以手写。赞

williamlouis

参考无审查版本优化27B K4
bash
echo high | sudo tee /sys/class/drm/card1/device/power_dpm_force_performance_level

然后启动 llama.cpp：

bash
cd /opt/llama.cpp
HSA_OVERRIDE_GFX_VERSION=11.0.0 ./build/bin/llama-server \
  -m models/Qwen3.6-27B-Q4_K_M.gguf \
  -c 65536 -ngl 99 \
  --flash-attn on \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --parallel 1 --reasoning off --no-warmup \
  --temp 0.7 --repeat-penalty 1.1 --top-p 0.9 \
  --host 0.0.0.0 --port 8081

优化后提升上下文到64K 可以和Hermes 联动
API 完全正常。下面是在 Mac 端 Hermes 的配置方法：

Mac 端 Hermes 连接 llama.cpp

你需要在 Mac 上打开终端，执行以下命令：

bash
1. 设置 provider 为自定义端点
hermes config set model.provider custom

2. 设置 API 地址（指向你的 Linux 机器）
hermes config set model.base_url http://192.168.8.247:8081/v1

3. llama.cpp 不需要 API key，但填一个占位值
hermes config set model.api_key not-needed

4. 设置模型名（必须与 llama-server 返回的一致）
hermes config set model.default Qwen3.6-27B-Q4_K_M.gguf


然后重启 Hermes（或 /reset）即可。



网络连通性

你的 Linux 机器 IP 是 192.168.8.247，端口 8081。

先确认 Mac 能访问：

bash
curl http://192.168.8.247:8081/v1/models


- 如果通 → 直接用上面的配置
- 如果不通 → 可能是防火墙或不在同一子网，可以通过 SSH 隧道转发：

bash
在 Mac 上建立 SSH 隧道
ssh -L 8081:localhost:8081 [email protected] -N

然后 base_url 改为：
hermes config set model.base_url http://localhost:8081/v1




等效的 config.yaml 直接编辑

也可以直接编辑 ~/.hermes/config.yaml：

yaml
model:
  provider: custom
  base_url: http://192.168.8.247:8081/v1
  api_key: not-needed
  default: Qwen3.6-27B-Q4_K_M.gguf




总结：核心就是告诉 Hermes 用一个自定义的 OpenAI 兼容端点，指向你的 llama.cpp server。llama.cpp 的 llama-server 内置了 /v1/chat/completions 和 /v1/models 端点，Hermes 直接就能用。

先这样。睡觉。明天继续。

williamlouis

@exe127 差距大约是几倍。
并不是速度上的问题。
主要原因是 Windows 环境下需要人为干预的部分太多。
Windows11 构架集显显示桌面+独立算力。这个构架在加入个人代码约束后一样可以完美的让7900XTX 全部显存跑模型但是在实现全程自动化的部分一步一坎。稳定性测试永不停止给你新的问题。简直是折腾爱好者的超级玩具。我并没有为Windows修补系统缺憾的义务。同时我不会用Windows 生产任何东西。完美避让是个很好的选择。
反之在 Linux 下开展的就很顺利。