@Devin-Hi 个人认为单张卡就行了,3-4人应该也不会说需要分析特别多的案子,可能刚开始积累的案子都分析了,后面机器利用率其实就比较低了,一个案子估计几十万或者复杂点上百万的卷宗文字对机器来说负荷都比较低的,甚至上千万的数据都不算多。
主要还是追求上下文长度和精确度,就是说要大显存来容纳高精度和上下文,因为大模型的读取速度和思考速度不一样的,我用的RTX6000用QWEN3.6 27B FP8模型字符读取速度最多能到8万字符每秒,但是字符输出速度50-200token/秒平均在90多;输出的都是精炼了的东西。
你这种专业领域比较偏向的,感觉是不是MOE那种专家模型会好一些。
九龙杨生
-
律师找到了我了 -
各位你们油管赚的钱怎么转回内陆账户,听说港卡转内陆账户都有1千美元的监管限制@terry 这个毫无问题,你的地盘肯定听你的,我只能说我是用做了几年的实际业务和你探讨的,不是全吹理论。
-
各位你们油管赚的钱怎么转回内陆账户,听说港卡转内陆账户都有1千美元的监管限制主要还是和坛友交流知识内容,并顺便说一下自己做的事情。
我们是服务公司,帮助油管博主开立国内大型银行一类银行账户,然后谷歌资金直接打到博主自己的银行账户,我们来做外管局和银行端的申报备案材料审核相关服务工作,我们不接触博主的资金,博主的资金也不经过第三方支付公司。如果博主的收入有一定量级了我们也会有财会方案推荐。
说白了就是让博主专心做内容,我们来做一些对于个人或者小团队来说比较难搞且麻烦的资金端、税收端服务。 -
大家把昵称修改了吧,注重个人隐私,防止被搜索引擎爬取.永远不要怀疑人的恶,我不懂外国人,中国人我还不懂么?
-
大佬们,中小企业自建本地大模型有没有什么可行的方案?他们这个需求其实要满足的话不算难,直接上RTX 6000 PRO一张就可以,他们也没有严格的精确度要求,都不用跑FP8模型,跑Q4_K_M就行,然后AI服务器上面弄VLLM+QWEN3.6 27B+comfyui生图,再弄个一般的主机跑Hermes或者龙虾调用AI服务器上面模型和生图就行。为了扩展性,AI服务器主板一来选pcie通道多的,万一发现一张卡性能不够就再加一张怎么感觉都够了。
-
Vide coding 鉴赏大会做个抬杠机器人,引经据典有理有据的把快乐建立在别人的痛苦之上~这个想法很NB
-
关于AMD/INTEL 下一步的显卡发布计划。显存大是基本要求,等显存大小满足了,显存内部带宽很多时候更加关键
-
大家把昵称修改了吧,注重个人隐私,防止被搜索引擎爬取.还是不要留下任何辫子吧,不过老特这种都是在册了,也不做违法的事情没什么问题。
-
5090用vllm搭qwen3.6 27b好像很麻烦。跑了几次都跑不起来。我是用ubuntu24.04然后docker直接拉取官方容器,直接就能跑了
-
5090 + vLLM + Qwen3.6-27B 成功分享@terry 尝试过了,改不了,改了之后论坛的显示名称还是没变化
-
运营油管对IP有要求吗?听说这种静态IP做得比较好一点的就是双落地,就是你连接美国服务器,美国服务器再连接家庭IP,再从家庭IP出流量;不知道市面上这种价格是在多少?
-
论坛版主申请帖子九龙杨生申请成为版主;
隐私问题删除了之前账号,主要做AI无限时长视频,以及谷歌苹果资金银行端结算服务。