终于体会到本地干活儿的爽了

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 13:01:16 GMT

laobenxiong — Wed, 03 Jun 2026 13:01:16 GMT

@johnnybegood 赞美...感觉这一套流程可以弄个 skill 分享了.

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 12:50:15 GMT

johnnybegood — Wed, 03 Jun 2026 12:50:15 GMT

@Miraco 可以保持排版和格式不变，文字和图片之前是什么关系，现在也是什么关系。但是你说的翻译图片是什么？指的是图片上的字么？那个我没试，我感觉可以弄，但是要单独做一个图片翻译流程。

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 12:36:08 GMT

Miraco — Wed, 03 Jun 2026 12:36:08 GMT

能翻译图片保持排版和格式不变吗？

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 12:25:31 GMT

johnnybegood — Wed, 03 Jun 2026 12:25:31 GMT

@blackjack 对，是芯片的前端后端，工作量巨大。后来做到 14纳米出了几个芯片就差不多了，再往9nm去实在做不动了。

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 11:40:43 GMT

Tony Wang — Wed, 03 Jun 2026 11:40:43 GMT

@johnnybegood

非常好, 这种解决实际问题的帖子, 也能给大家启发思路.

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 11:38:50 GMT

johnnybegood — Wed, 03 Jun 2026 11:38:50 GMT

@vosrock 可以的，但就是字体变了，应该好改

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 10:23:13 GMT

Xiaote — Wed, 03 Jun 2026 10:23:13 GMT

@vosrock 关于格式保留的问题，实测说一下：

纯文本+图片的 PDF，混元翻译+本地工具链基本上能保留原文的章节标题、段落结构和图片位置。但如果原 PDF 有复杂排版（多栏、表格、脚注、文本框），格式会有一定丢失。

几个实测可行的方案：

先用工具把 PDF 转成 Markdown（比如 Marker、MinerU、Mathpix），然后把 Markdown 分章节喂给混元翻译。转出来的 md 格式基本能保留标题层级和图片引用。
翻译完再用 Pandoc 转 ePUB。Pandoc 对 Markdown→ePUB 的转换很成熟，图文混排能做得很接近原版。
如果对格式要求极致（比如学术论文的双栏+公式），建议直接保留 PDF 版，用 OCR 提取文字翻译后叠加回去，但这就比较接近出版级流水线了。

johnnybegood 说的 98% 内容跟人翻译差不多——这个准确率对于 100 本书的量来说，已经非常实用了。少量细节手动调一下格式，比全部手动翻译或者用在线付费服务划算太多了。

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 09:44:26 GMT

vosrock — Wed, 03 Jun 2026 09:44:26 GMT

格式可以完整保留吗？这个很重要啊，其实收费的那些，图文混排做得也不是很好

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 08:41:32 GMT

blackjack — Wed, 03 Jun 2026 08:41:32 GMT

@johnnybegood 说:

@kop-wang 其实这个很好理解，当年我的初创公司弄集成电路设计，需要做前端和后端，前端大家都比较熟，后端不太会弄，问了老美的公司，如果派专家给我们做后端，一个team过来干1个月那就是天价，后来我们租了一个专家，一天才 2000美元，指导公司的一群小弟做后端，最后我们芯片还是做出来了。现在可以看成这个专家就是 opus , gpt 或者 deepseek pro , 干活的小弟就是本地模型咯，所以N年前我就有这个概念了哈哈。

大哥，你这是设计芯片的前端和后端，千万别让人误会成互联网的前端后端。完全天上地下的差别，拜一个先。现在不做了吗？

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 06:42:59 GMT

johnnybegood — Wed, 03 Jun 2026 06:42:59 GMT

@kop-wang 其实这个很好理解，当年我的初创公司弄集成电路设计，需要做前端和后端，前端大家都比较熟，后端不太会弄，问了老美的公司，如果派专家给我们做后端，一个team过来干1个月那就是天价，后来我们租了一个专家，一天才 2000美元，指导公司的一群小弟做后端，最后我们芯片还是做出来了。现在可以看成这个专家就是 opus , gpt 或者 deepseek pro , 干活的小弟就是本地模型咯，所以N年前我就有这个概念了哈哈。

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 06:29:32 GMT

kop wang — Wed, 03 Jun 2026 06:29:32 GMT

不错的实战分享。

其实本地LLM来跑大模型驱动Agent，并不是性价比非常高的玩法。
反而是大模型API驱动Agent + 本地音视图，以及像楼主这样的本地专业领域小模型，效率又高，完成度又好。对于本地的硬件还没有过高的负担。

这样既发挥了线上大模型API的智力，又实打实的降低了专业生成的成本。

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 06:25:42 GMT

johnnybegood — Wed, 03 Jun 2026 06:25:42 GMT

@patrickh0h0 可别叫什么大神，这就是正常用而已。具体配置看 https://lcz.me/topic/273/经验分享-求助-双卡-3090-3070-混插-windows-vs-ubuntu-跑-qwen-ltx-video-性能实测/13

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 06:18:51 GMT

patrickh0h0 — Wed, 03 Jun 2026 06:18:51 GMT

利害大神，請問一下硬件配置，及操作系統。

Reply to 终于体会到本地干活儿的爽了 on Wed, 03 Jun 2026 06:37:55 GMT

johnnybegood — Wed, 03 Jun 2026 06:37:55 GMT

另外补充说一下，这个混元模型，可以搜搜看一下介绍，就是专门用来翻译的模型，可能干别的活儿不行，但是翻译这一项应该是遥遥领先，比qwen deepseek等都要强的， 7B已经完全够用，其实1.8B就够用了，我感觉98%的内容都跟人翻译差不多了，只有一些很小的细节没有那么完美，调教一下应该就好了。翻译一本书， Deepseek的成本是， 4分钱。本地模型的成本是，电费：如果是600W， 7分钟一本，那就是大概 0.06度一本，一度5毛钱，那就是 0.06x50=3分钱。最后翻译一本书就是 7分钱。

摘抄：Hy-MT2 是一系列"快速思考"多语言翻译模型，专为复杂的现实场景设计。它包含三种模型规模：1.8B、7B 和 30B-A3B（MoE），所有模型都支持 33 种语言之间的翻译，并能有效遵循多语言翻译指令。对于设备端部署，AngelSlim 1.25 位极端量化将 1.8B 模型的存储需求减少至仅 440 MB，并将推理速度提升 1.5 倍。多维度评估显示，Hy-MT2 在通用、现实商业、领域特定和指令遵循翻译任务中均表现出色。7B 和 30B-A3B 模型在快速思考模式下优于 DeepSeek-V4-Pro 和 Kimi K2.6 等开源模型，而轻量级的 1.8B 模型总体上也超过了微软、豆包等提供商的主流商业 API。