Rustdesk我一直在用效果不错。建议自架服务,不要用官方服务,安全第一。
内网穿透,方案很多了,我现在是手机ipv6的wireguard穿回来;如果你传大文件,建议用vmess这种伪装的协议,我架了一个vmess的ws,放在ipv6的网站下,作为传大文件和wg的备用。wg是基于udp的,用的多了容易被运营商卡速度,vmess+ws基于tcp没有这个问题。
如果不愿意用ipv6或者嫌不方便,可以考虑nat打洞,具体youtube上各大博主都有介绍,嫌麻烦就cloudflare,不怕麻烦就弄个小水管的vps做信息中转。我实测nat打洞还是挺方便的,各种网络环境都能回来。 cloudflare反代方案好在不用改端口,但是速度不太行,小流量延时不敏感的可以考虑。
davidwei0826
-
虽迟但到,交作业了 -
2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右@Fred 我平时不加MTP是,utility基本都95%以上了, MTP再消耗一部分算力,在20这样的算力基础上,估计也就提升到这意思了。适合入门或者应用频率不高的chat场景。
-
2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右今天看到一篇微信公众号文章: https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ
按照文章内容搭建了测试环境:git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp cd llama.cpp-mtp git fetch origin pull/22673/head:pr-22673 git checkout pr-22673 mkdir build && cd build cmake .. \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON \ -DLLAMA_CURL=ON \ -DGGML_NATIVE=ON \ -DGGML_CUDA_GRAPHS=ON \ -DGGML_CUDA_F16=ON \ -DGGML_CUDA_FA_ALL_QUANTS=ON \ -DCMAKE_CUDA_ARCHITECTURES=75 # 按需调整,89=Ada/4090,86=Ampere/3090 cmake --build . --config Release \ --target llama-server llama-bench --parallel下载了unsloth的开启MTP模型: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf
不加载vision的情况下, 启动:~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \ --ctx-size 131072 \ --n-gpu-layers 999 \ -fa on \ --port 8000 \ --host 0.0.0.0 \ --cache-type-k q4_0 \ --cache-type-v q4_0 \ --no-mmap \ --no-warmup \ --reasoning off \ --jinja \ --parallel 1 \ --spec-type mtp \ --spec-draft-n-max 2 \ --chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"128k上下文,显存占用20.5G,简单用cherrybox提了几个问题,prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试,理论上应该提升更多。
另外,对于--spec-draft-n-max 的值,测了1,2,3。发现2时收益最大,能跑到33~34; 1和3都在30上下。 总体都比裸跑有提升。
最后挂上了vision,发了一张1M左右的图片测试了一下,TPS在28左右,显存占用21.75G。 我准备测几天,看看会不会OOM。
另外还有一个发现,开了MTP以后,显卡的utility下来了。之前基本上都在95%以上,功率一直顶着上限250W。开了MTP,tps上升的同时,utility基本上都在80%左右,功率也基本上不会满载了。估计是降低了开销,输出也降低,但是被MTP补偿了。总体来讲,2080Ti这个卡应该没什么压榨空间了,跑Hermes太慢,适合跑好skill,布置好cron让他后台自己干活,不适合前台交互。

-
说一下我自己的20年硬件攒机的经验.我第一台自己的PC也是手搓的,2000年 毒龙750+256M内存,20G硬盘。用了5年,最后加到512M内存做archlinux的NAS. 跑了电驴、samba、nfs什么的。记得当时硬盘都是并口,动静老大了,而且还特别烫手。
-
用3090如果只跑llm, 平均一个月用多少kwh 的电?好像比订阅的费用还要贵我觉得本地化部署就两个场景适合:
- 你有私密的数据。local agents场景,Openclaw或者Hermes真要能帮你干活,你得给他很多私密的数据,服务器的用户名密码,邮箱密码什么的。
- 你的需求没有现成的外部算力平台,比如老特的那种定制化的数字人生产流水线。
其他你要是写代码,爬资料之类的公共信息相关需求,直接买coding plan肯定更划算。