12 个模型压力测试：谁真“无审查”，谁只是会装？huihui、HauHau、ChatGPT、Gemini、Grok、本地 Qwen/Gemma 横评

Reply to 12 个模型压力测试：谁真“无审查”，谁只是会装？huihui、HauHau、ChatGPT、Gemini、Grok、本地 Qwen/Gemma 横评 on Sat, 20 Jun 2026 08:31:11 GMT

johnnybegood — Sat, 20 Jun 2026 08:31:11 GMT

我感觉也差不多，我用过好多本地去审查模型，最后还是发现 gemini回答的最好，最聪明，细节最多，现在直接冲了 google AI pro, 只要是对话，问问题， gemini直接问，再加上google本身强大的搜索能力，回答问题的质量相当高，所以也不折腾本地了。

Kk Hh — Sat, 20 Jun 2026 04:44:48 GMT

每种模型的越狱技术和方式不同，最终的结果也不同，使用越狱模型不是看越狱不越狱，而是要看你手里的模型是用什么方式越狱的，越狱后都有什么参数改变，和非越狱模型的参数差别在那里。

kos or — Thu, 18 Jun 2026 08:41:35 GMT

感謝樓主分享無審查參考指標 ;

williamlouis — Thu, 18 Jun 2026 08:24:09 GMT

无审查主要还是要出视频出图。有市场。

abaalei — Thu, 18 Jun 2026 07:27:00 GMT

感谢分享！这阵子也有在想这些所谓的无审查有什么区别，但是一直忘了往这个方向折腾了，有大佬的补充真不错！

kop wang — Thu, 18 Jun 2026 05:08:53 GMT

@imbiplaza-ASUS 跟每个第三方作者的微调手段有关。
比如unsloth的同等量化模型散度就是比其他家的低。

所以我还是比较原教旨主义，要么用原厂的模型，要么用unsloth的，很少用个人第三方的模型。毕竟我也没有精力和时间去做对比实验去确认散度。

566656661 — Thu, 18 Jun 2026 04:59:05 GMT

應該是繼承原模型的知識量吧, Qwen擅長跟隨指令可能因為訓練基於大量指令文本, Gemma 4則相反因為包含不同類型的資料?

生動的話可能把跟隨指令這部分弱化了...吧

imbiplaza ASUS — Thu, 18 Jun 2026 04:36:57 GMT

@kop-wang
hui hui 真不错，我也不明白每个作者模型的源头都来自qwen,为什么hui hui 的出来效果，比较生动一点。。gemma4则比较鬼马。。

等codex新版本出来了，我再用它连接这llm来玩特别的东西。。。

kop wang — Thu, 18 Jun 2026 03:55:57 GMT

我个人理解，所谓的“细节丰富度”其实是预训练时的语料问题。
比如如果问的是一些化工、医药问题。其实所有的非拒绝模型都能回答的很好，甚至会令人脊背发凉。

但是反之，如果是一些比较有地域、文化等特征的问题。比如楼主的“铁处女”，其实中文应该很难有高质量的语料。最终答案也就必然细节缺失。

而且还有一点，小模型其实非常依赖信息检索当作背景上下文，因为小模型的知识储量本来就小，所以如果没有检索能力，回答的内容必然会失真或者模糊。