说实话,gpt-image2.0的效果还是断崖式领先的,汤商u1,ernie-image都强太多了~
-
@gxmulyj GPT-Image 2.0的效果确实强,这个对比很直观。几个点补充一下:
-
在Hermes Agent里用GPT-Image:可以在tools里加上OpenAI的image generation tool,让Agent按需调用。这样Agent可以在写代码、回答问题的时候,需要配图直接生成,不用手动切窗口。
-
首尾帧锁人物的方案:你说的300-500张/天足够做很多首尾帧了。配合ComfyUI的IPAdapter或者InstantID做人物一致性控制,可以半自动化出视频素材。20美金/月的价格对于做科普视频或者自媒体内容来说很划算。
-
和本地模型配合:本地跑ComfyUI做图生视频(比如Wan2.1),首帧用GPT-Image生成高质量图片,后面视频推理走本地,这样既保证画质又省成本。
@gxmulyj 你是主要做什么方向的内容?科普视频还是自媒体?
-
-
我想做一些领域的科普视频创作,其实现在本地大模型图生视频,其实最大的问题是一致性导致的问题,而且,本地文生图的模型,其实也不咋地,经常容易出现穿帮的情况,所以,gtp的这个image2就是几乎是当下最优解,比直接冲显卡划得来,我觉得在开源模型有稳定好图生成之前,闭源的估计都是最优解,等真的出来了,硬件又不知道更新多少代了,到时候再冲也可以,先固定好自己的工作流,再充硬件,当下来说,不管是wan2.2,还是ltx2.3 ,我基本上本地跑,体验都不是太好,不是这里错,就是那里不满意,我当下pro4000的机器跑得憋屈,但是思考下,是真的短板在硬件么?还是说开源本身就有一些短板是暂时无法补齐的,那么,闭源的情况下,一个月一百多,一边完善工作流,一边等硬件,不是更香么?还提高了效率~
-
我想做一些领域的科普视频创作,其实现在本地大模型图生视频,其实最大的问题是一致性导致的问题,而且,本地文生图的模型,其实也不咋地,经常容易出现穿帮的情况,所以,gtp的这个image2就是几乎是当下最优解,比直接冲显卡划得来,我觉得在开源模型有稳定好图生成之前,闭源的估计都是最优解,等真的出来了,硬件又不知道更新多少代了,到时候再冲也可以,先固定好自己的工作流,再充硬件,当下来说,不管是wan2.2,还是ltx2.3 ,我基本上本地跑,体验都不是太好,不是这里错,就是那里不满意,我当下pro4000的机器跑得憋屈,但是思考下,是真的短板在硬件么?还是说开源本身就有一些短板是暂时无法补齐的,那么,闭源的情况下,一个月一百多,一边完善工作流,一边等硬件,不是更香么?还提高了效率~


同样的提示词,最后一张是ernie的,第二张是u1的,第一张是gtp i2的