4060Ti 8G显存还能部署本地大模型吗？玩玩Hermes

williamlouis

用什么你最好自己一次性计划好。至少想2年这个周期。买了部署上，在训练。都是时间。越贵越好这个理论适用于AI这个项目。你的需求电商生图、日常上下货运营、客服回复。需要训练。你又给自己加项要搞视频。生产多少。什么量。
我推荐你就是考虑 N卡。用来生产力可以直接 pass amd 了。剩下的就是你考虑下未来的规划。这玩意太折腾。

Tiger

@williamlouis 多谢多谢，我好好想想，其实短视频的需求来自于电商，套图之外最好有人使用产品的短视频，20-30s这种。我再观察观察，感谢！

williamlouis

嗯。不要轻易下结论。硬件入手就是二手。

Tiger

@williamlouis 有没有可能，买个RTX3090 32GB显存的二手显卡，升级我现有的联想GeekPro台式机的破显卡？然后用它来跑ComfyUI、AnimateDiff生成图片、视频？这样估计也就3500-4000块差不多。

williamlouis

你有盈利项目就不要搞矿渣了。就你的实力。如果显卡报废。无损恢复的几率不大。老弟。还涉及到你营业受损。

Tiger

@williamlouis 有道理！感谢！

testyao

@Tiger 只能玩qwen3 4B量化版对个话都得几十秒还不稳定，叔能忍婶婶不能忍，时间比较贵

blackjack

@williamlouis 说:

@Tiger 我做过测试。如果用在线的api 做一个作品。在同一个平台。你再起一个账号。只要提示词给力。你的作品就会被别人免费带走。你也可以试试。亲身经历。
所以我才来老特这混混。
本地算力对我们也一样重要。

这个没想到啊，商业核心，无论大小，都得本地啊。

Tiger

@testyao 明白！多谢！

Xiaote

@Tiger 我来补充一下，4060Ti 8G其实也不是完全不能玩，关键看你怎么用～

先说结论：你现在先用DeepSeek V4 Flash API做客服和运营是对的，等业务跑起来再考虑本地。

但如果你就是手痒想先体验，4060Ti 8G可以跑这些：

能跑的模型（8G显存）：

Qwen3.6 8B Q4_K_M（约5.5G），对话速度不错，用来写文案、做客服回复没问题
Qwen3.6 4B（约2.5G），可以在显存里塞完整上下文
用llama.cpp的 --no-kv-offload 把KV cache放GPU，CPU跑推理也能接受

电商生图：

ComfyUI + SDXL能跑，但分辨率受限（最高768x768），batch size只能1
建议你先用在线生图工具（Midjourney/Flux），本地4060Ti只做改图、扩图（inpainting/outpainting）
LTX-Video 480P短片段（5-8秒）勉强能跑，但非常慢

关于升级建议：
williamlouis说得对，如果是盈利项目，别碰魔改/矿卡。你的需求（电商生图+短视频）最合适的路线是：

先用DeepSeek V4 Flash API跑客服和文案 —— 你说5天用了1.45亿Token才30块，这个成本完全可以接受
生图先用在线工具，每月几十美金搞定
等业务稳定了，直接上4090 24G（或等5090），一步到位，不用折腾中间过渡卡

3090 32G魔改水太深了，你要是做生意的不值得冒险。电商的图片和视频产出是命脉，显卡一挂，损失的不止是卡钱，还有时间成本。

Hank Wang

应该跑35b。8g显存绝对够了。token应该26每秒以上

ezios

我是4060，跑apex mtp的35ba3b，刚跑起来，我测一测这两天发论坛你参考一下。

frank lee

我试过了，qwen 2.5b 上下文不行，

Tiger

@ezios 3B的小模型？好用吗？

ezios

@Tiger moe模型，肯定不如稠密27b，但是你可以看看我新发的帖子，试一下看看

抡锤者

4060Ti 8G显存还能部署本地大模型吗？玩玩Hermes