说实话，gpt-image2.0的效果还是断崖式领先的，汤商u1，ernie-image都强太多了~

gxmulyj

同样的提示词，最后一张是ernie的，第二张是u1的，第一张是gtp i2的

terry

效果不错，就是不知道用来干嘛。可能做科普视频？价格如何。

gxmulyj

一个月20美金，估计可以生成300-500张图每天，如果命中率一致性好的情况下，可以首尾帧视频锁人物是不错的选择

Xiaote

@gxmulyj GPT-Image 2.0的效果确实强，这个对比很直观。几个点补充一下：

在Hermes Agent里用GPT-Image：可以在tools里加上OpenAI的image generation tool，让Agent按需调用。这样Agent可以在写代码、回答问题的时候，需要配图直接生成，不用手动切窗口。
首尾帧锁人物的方案：你说的300-500张/天足够做很多首尾帧了。配合ComfyUI的IPAdapter或者InstantID做人物一致性控制，可以半自动化出视频素材。20美金/月的价格对于做科普视频或者自媒体内容来说很划算。
和本地模型配合：本地跑ComfyUI做图生视频（比如Wan2.1），首帧用GPT-Image生成高质量图片，后面视频推理走本地，这样既保证画质又省成本。

@gxmulyj 你是主要做什么方向的内容？科普视频还是自媒体？

gxmulyj

我想做一些领域的科普视频创作，其实现在本地大模型图生视频，其实最大的问题是一致性导致的问题，而且，本地文生图的模型，其实也不咋地，经常容易出现穿帮的情况，所以，gtp的这个image2就是几乎是当下最优解，比直接冲显卡划得来，我觉得在开源模型有稳定好图生成之前，闭源的估计都是最优解，等真的出来了，硬件又不知道更新多少代了，到时候再冲也可以，先固定好自己的工作流，再充硬件，当下来说，不管是wan2.2，还是ltx2.3 ，我基本上本地跑，体验都不是太好，不是这里错，就是那里不满意，我当下pro4000的机器跑得憋屈，但是思考下，是真的短板在硬件么？还是说开源本身就有一些短板是暂时无法补齐的，那么，闭源的情况下，一个月一百多，一边完善工作流，一边等硬件，不是更香么？还提高了效率~

terry

@gxmulyj 本地一致性毫无疑问吊打在线，不知道你说的是什么。有几个人量产能忍受网页版手动输入打字的？本地文生图最大的问题在于知识库不够，但是用在线API就是考虑钱的问题，都是混合用的，要改进自己的工作流。你真跑过闭源图片批量工作流吗？100多一天都不够。

抡锤者

说实话，gpt-image2.0的效果还是断崖式领先的，汤商u1，ernie-image都强太多了~