
过去一年,很多团队深有体会:AI 生图最头疼的从来不是“画一张图”,而是“把这张图修到能交付”。字一糊,海报报废;角色一漂,分镜重来。
2 月 26 日,Google DeepMind 推出 Nano Banana 2(Gemini 3.1 Flash Image)。这次模型更新,更像一次“产品收束”:Google 不想再跟你反复讨论“画风”,而是想把生图变成一种随手可用、算得过账的生产能力。
先把账算平:AI 生图卡住的从来不是想象力,是成本
过去企业“用不动”AI 生图,核心不是效果不行,是算不过账。你选 Nano Banana Pro,质量、可控性、文字能力更稳,但一进高并发工作流就变成“财务问题”。你选便宜的方案,速度快、单价低,但容易在商业物料最要命的地方掉链子——字糊、排版飘、角色不一致,返工把成本又补回去了。
Nano Banana 2 的第一刀,就是把这道成本难题砍掉一半。官方定价里写得很清楚,Nano Banana 2(Gemini 3.1 Flash Image Preview)的图像输出是 60 美元/百万tokens,折算下来大致是:
• 1K:约 0.067 美元/张;
• 2K:约 0.101 美元/张;
• 4K:约 0.151 美元/张;
如果走 Batch(批处理):1K 能压到 0.034 美元/张。
对比Nano Banana Pro( Gemini 3 Pro Image)的 120 美元/ 百万 tokens:
• 1K/2K:约 0.134 美元/张;
• 4K:约 0.24 美元/张。
Nano Banana 2将核心档位价格直接腰斩,用 Batch 还能再减半。对需要“量大管饱”的团队(电商图、广告物料、内容配图、PPT/信息图流水线)来说,这就是能不能上生产的分水岭。
能力没那么“炸裂”,但都在补生产线的短板
当成本曲线弯下来了,我们再来看看这次更新的能力点。Nano Banana 2 的升级,不是那种让人“哇”一声的天花板突破,而是典型的“生产化改造”。用四件事,把最影响交付的短板,补成可用的长板。
第一件:把“现实世界”接进画面
官方介绍说,Nano Banana 2 会利用 Gemini 的世界知识,并通过网络搜索到的图像做视觉参考,让模型“有资料再动笔”。Google 还做了一个叫做 Window Seat 的演示 demo:该应用能够结合地点与实时天气数据,生成更贴近真实的“窗外景色”。这类能力对信息图、地理/建筑题材、需要事实一致性的内容非常关键。
第二件:让图里的字终于能交付
Google 这次把“字要清楚”放到了台面上,文本渲染更可靠,同时支持在图片内部直接多语言生成/翻译。官方还构建了一个 Global Ad Localizer 的应用演示广告物料一键本地化,不仅能把字翻译出来,还会理解并同步调整视觉元素,让广告更像“本地版本”,避免“贴翻译贴纸”的违和感。
第三件:一致性够你做系列化
在单次工作流里最多保持 5 个角色相貌一致,14 个物体外观一致。这类能力在生产里是“返工开关”:能不能在同一工作流里稳住角色和关键物体,决定你做分镜、做 SKU、做系列物料到底是“流水线”还是“抽盲盒”。
第四件:更细的“生产参数”
新增 512px 低延迟档位,与 1K/2K/4K 形成梯度,扩展原生宽高比(新增 4:1、1:4、8:1、1:8 等),再加上可配置的推理强度(thinking levels),让开发者在时延/质量/遵循度之间做工程权衡。
比起出图,Google 的狠招在“铺得更广”
在 Gemini 应用中使用 Nano Banana 2 的全新模板功能进行尝试
如果说前两部分是“武功”,那这一部分要说的就是“江湖地盘”。只看模型能力,很容易把 Nano Banana 2 当成“更便宜的 Pro”,但值得注意的是,Google 正在把它塞进几乎所有能触达用户的入口里,让“使用”这件事不再刻意,而是你伸手就能摸到。
官方给出的铺设路径几乎是全家桶式的:
• Gemini app:Nano Banana 2 将在 Fast / Thinking / Pro 模式中替换 Nano Banana Pro;订阅用户仍可通过三点菜单来调用 Pro 做更精细任务;
• Search:进入 AI Mode 与 Lens,并扩展到更多国家/地区与语言(官方提到 141 个新增国家和地区、8 种新增语言);
• AI Studio +API:预览版可用(在 AI Studio 使用需要付费 API key);
• Google Cloud:可通过Vertex AI中的Gemini API预览使用;
• Flow:成为默认图像生成模型,且对 Flow 用户免费开放;
• Google Ads:创建广告活动时提供智能建议与素材生成。
榜单与口碑:Arena得分第一
在 AI 评测平台 Arena 最新文本转图像排行榜上,Nano Banana 2(Gemini 3.1 Flash Image Preview)排名第 1,得分 1280±12。
从市场实测反馈来看,兴奋派看到的是:更快、更便宜、更适合批量;尤其“图里带字”和信息图链路更短。冷静派看到的是:它像一次面向规模的轻量化,质量未必“代际飞跃”,在极复杂文字排版上仍可能翻车。
但可以确定的是,当产品目标从“秀肌肉”切到“上流水线”,评价标准也会跟着变,从“最好看”变成“最少返工 + 最快交付 + 最好算账”。
此外,还有一张隐形的牌——溯源。随着生成图越来越真,越需要能证明它从哪来。Google 在 Nano Banana 2 的发布里继续强化 SynthID + C2PA Content Credentials 的组合:不仅提示“是否用了 AI”,还试图补全“怎么用的”。据官方披露,自 2025 年 11 月推出以来,Gemini App 的 SynthID 验证功能已被使用超过 2000 万次,并且很快也会把 C2PA 的验证引入 Gemini。
到底能不能改变你的出图工作流?三个现实结论
如果你做的是商业物料(海报、广告、信息图、UI 原型),看“字”和“返工率”。它能把你从“修字地狱”里拎出来,哪怕画风没惊喜,也值。尤其是文字可读 + 版本本地化 + 不用反复修图,提升了可交付率。
如果你做的是连续叙事(分镜、连环图、系列化素材),5 个角色一致性 + 14 个物体保真,本质上是在给“系列化生产”开绿灯;它不保证永不漂移,但能把“每张都像抽盲盒”变成“可控范围内的迭代”。
如果你是开发者/产品团队,真正的变化是它开始像一个“可配置的渲染引擎”:宽高比、分辨率、thinking levels、web-search grounding……这些参数化能力,会直接影响两类产品的生死线:面向普通用户的模板化出图工具、面向企业的批量生产系统。
Nano Banana 2 的野心其实很简单:把 Pro 的关键能力拉到 Flash 的速度与成本上,再用入口把它铺成默认。
好文章,需要你的鼓励
南华科技大学等顶尖院校联合发布的对角蒸馏技术实现了AI视频生成的重大突破,通过"前重后轻"的智能资源分配策略,在保持高质量的同时将生成速度提升277倍。该技术能在2.61秒内生成5秒视频,达到每秒31帧的流畅效果,有效解决了长视频生成中的质量衰减问题,为视频制作、教育内容创作等领域的实用化应用铺平了道路。
KRAFTON与KAIST联合研究揭示,当前最先进的AI视觉模型在识别图像间微妙差异方面存在显著不足。研究团队开发的VLM-SubtleBench测试平台显示,即使最好的AI模型准确率也仅有77.8%,远低于人类的95.5%。这一发现对医疗诊断、工业质检等需要精细视觉判断的关键应用领域具有重要警示意义。
南开大学联合字节跳动、清华大学团队发布视频理解新突破ASID-1M,创建包含100万精细化描述的数据集,将视频内容分解为八个详细属性。采用三阶段渐进训练法,让AI从单属性理解逐步发展到复杂长视频分析。在七项基准测试中表现优异,小规模模型性能可媲美大型商业系统,为视频内容创作、教育培训、娱乐媒体等领域提供强大技术支撑。
这项Google DeepMind的研究提出了"智能委托"框架,让AI助手学会像优秀项目经理一样分析任务、选择合作伙伴、监控进度和应对变化。通过建立信任体系和多重安全防护,该框架能够协调多个AI和人类专家高效协作,在个人助手、企业管理、科研合作等领域展现巨大应用潜力,代表了AI从被动工具向主动协作伙伴的重要转变。