这项由南京大学王帅、高子腾、朱晨辉,字节跳动种子实验室黄伟林,以及新加坡国立大学合作完成的突破性研究发表于2025年7月的arXiv预印本平台。有兴趣深入了解的读者可以通过论文编号arXiv:2507.23268v1访问完整论文,同时研究团队还在GitHub和Hugging Face平台提供了开源代码和在线体验。
在人工智能绘画的世界里,目前最流行的方法就像是先把一幅画压缩成密码本,然后让AI在这个密码本上作画,最后再把密码翻译回真正的图像。这种方法虽然有效,但就像玩传话游戏一样,每一步转换都可能丢失一些细节,最终的画作难免会有些失真或出现奇怪的瑕疵。南京大学的研究团队决定彻底改变这种做法,他们让AI直接在真实的像素世界中作画,不再需要任何中间的翻译步骤。
传统的AI绘画系统依赖一个叫做变分自编码器(VAE)的组件,它的作用就像一个翻译官,负责把复杂的图像压缩成简单的代码,然后再把代码还原成图像。这种两阶段的工作方式确实降低了计算难度,让AI能够更容易地学习绘画技巧。然而,这个翻译官并不完美,它在翻译过程中会不可避免地丢失一些信息,导致最终生成的图像出现模糊、伪影或其他质量问题。更麻烦的是,训练这个翻译官本身就是一个复杂的过程,需要使用对抗性训练等高难度技术,就像教两个学生互相竞争来提升水平一样,训练过程极不稳定。
为了解决这些问题,一些研究者尝试让AI直接在像素层面工作,但这种方法面临着计算量爆炸的问题。当AI需要处理的信息量增加几十倍时,传统的直接像素方法只能采用级联流水线的复杂架构,就像建造一条分段式的生产线,每个阶段处理不同分辨率的图像。这种方法虽然能工作,但整个系统变得极其复杂,训练和使用都非常困难。
南京大学团队提出的PixNerd方法就像是给AI配备了一副神奇的眼镜,让它能够以全新的方式观察和处理图像的每一个像素。传统方法中,AI在处理大块像素区域时往往力不从心,就像一个画家试图用粗大的画笔绘制精细的花朵一样困难。PixNerd的创新在于引入了神经场技术,这就像给AI配备了一套可以无限放大和缩小的智能画笔工具。
神经场技术原本在三维场景重建领域大放异彩,它能够用数学函数来精确描述三维空间中每一个点的属性。研究团队巧妙地将这种技术应用到二维图像生成中,让AI能够学会为图像的每一个像素块预测一套专门的"绘画工具"。具体来说,当AI需要处理一个16×16像素的图像块时,它首先会预测出一组神经网络参数,这些参数就像是专门为这个图像块定制的画笔和颜料。然后,对于图像块中的每一个像素,AI会根据该像素的位置信息,使用这套定制工具来精确预测应该填入什么颜色。
这种方法的巧妙之处在于,它既保持了与传统方法相当的计算效率,又能够处理像素级别的精细细节。就像一个技艺精湛的工匠,能够用同样的时间制作出质量更高的作品。研究团队将这种像素神经场扩散模型命名为PixNerd,寓意着在像素世界中专业且精细的工作态度。
PixNerd的核心架构基于扩散变换器设计,但在最关键的输出层进行了根本性改革。传统的扩散变换器在最后一步使用简单的线性投影来生成输出,就像用一把标准化的刻刀雕刻所有细节。而PixNerd则用神经场替换了这个线性投影层,相当于为每个图像区域配备了专门的雕刻工具。当系统需要生成某个图像块的内容时,它首先根据变换器的隐藏状态预测出该块专用的神经场参数,然后使用这些参数结合像素坐标信息来逐像素生成最终结果。
为了进一步提升性能,研究团队在坐标编码方面也进行了创新。他们放弃了传统的正弦余弦编码,转而采用DCT基编码,这种编码方式能够更好地捕捉图像的频域特征。同时,他们还对神经场的参数进行了行归一化处理,这就像给画笔的力度进行标准化调节,确保绘画过程的稳定性。
在训练策略方面,PixNerd采用了多项先进技术来提升模型性能。研究团队集成了SwiGLU激活函数、RMSNorm归一化、旋转位置编码等现代神经网络组件,这些技术就像给AI配备了更精密的传感器和控制系统。更重要的是,他们引入了表征对齐技术,让PixNerd的中间特征与预训练的DINOv2视觉模型保持一致,这相当于让AI在学习绘画的同时,也学会了如何更好地理解图像的语义内容。
实验结果令人瞩目。在ImageNet 256×256数据集上,PixNerd-XL/16模型达到了2.15的FID分数,这个指标越低表示生成图像质量越高。更令人印象深刻的是,该模型在空间FID(sFID)指标上取得了4.55的优秀成绩,显著优于其他像素空间生成模型。这表明PixNerd不仅能生成视觉上令人满意的图像,在图像的空间结构和细节保持方面也表现卓越。
在更高分辨率的ImageNet 512×512测试中,PixNerd同样表现出色,FID分数达到2.84,与需要VAE的传统方法性能相当,但却是完全端到端的训练,避免了VAE引入的复杂性和潜在问题。这种性能等价但架构更简洁的优势,为未来的图像生成研究指明了新方向。
研究团队还将PixNerd扩展到文本到图像生成任务中。他们使用Qwen3-1.7B作为文本编码器,在包含约4500万图像的混合数据集上进行训练。为了提升文本和图像的对齐效果,他们采用了联合训练策略,让文本特征和图像特征能够更好地协调工作。在GenEval基准测试中,PixNerd-XXL/16达到了0.73的综合评分,在DPG基准测试中获得80.9的平均分数,这些成绩在像素空间生成模型中都是领先水平。
PixNerd的一个独特优势是支持任意分辨率生成,而且无需额外的微调训练。这种能力来源于神经场的灵活特性:系统只需要保持token数量与预训练时一致,然后通过坐标插值来适应不同的目标分辨率。这就像一个画家能够在不同尺寸的画布上自如创作,无论是小幅素描还是大型壁画,都能保持同样的艺术水准。
从计算效率角度来看,PixNerd展现出显著优势。与其他像素空间扩散模型相比,PixNerd的推理速度快了近8倍,内存占用也大幅降低。在单步推理时间上,PixNerd-XL/16只需要0.012秒,而同类模型PixelFlow-XL/4需要0.084秒。这种效率提升主要归功于PixNerd的单阶段架构设计,避免了级联模型的复杂性和重复计算。
在神经场设计的细节优化方面,研究团队进行了全面的消融实验。他们发现,对神经场参数进行适当的归一化处理至关重要,这不仅包括对权重矩阵的归一化,还包括对输出特征的归一化。在神经场的通道数配置上,64个通道被证明是性能和计算成本的最佳平衡点。较少的通道数会导致表达能力不足,而过多的通道数虽然能略微提升性能,但计算开销增加过多,性价比不高。
在坐标编码的选择上,DCT基编码明显优于传统的正弦余弦编码。这种编码方式能够更好地捕捉图像的频域特征,帮助神经场更准确地理解像素之间的空间关系。研究还发现,使用2层MLP作为神经场的深度是最优选择,既保证了足够的表达能力,又避免了过度复杂化。
在推理策略方面,PixNerd支持多种ODE求解器,包括Euler求解器和Adams多步求解器。实验表明,Adams二阶求解器在少步推理中表现最佳,能够在保持生成质量的同时显著减少推理步数。这对于实际应用来说非常重要,因为更少的推理步数意味着更快的生成速度和更低的计算成本。
值得注意的是,PixNerd还展现出优秀的多语言理解能力。虽然模型主要使用英文描述进行训练,但由于采用了强大的Qwen3文本编码器,它能够理解中文、日文等多种语言的文本提示,并生成相应的高质量图像。这种跨语言能力为PixNerd的国际化应用奠定了基础。
在与其他先进模型的对比中,PixNerd在多个维度都表现出竞争优势。与需要VAE的潜在扩散模型相比,PixNerd避免了VAE训练的复杂性和解码伪影问题。与其他像素空间模型相比,PixNerd的单阶段设计更加简洁高效。与自回归模型相比,PixNerd的并行生成能力提供了更快的推理速度。
研究团队还对PixNerd的局限性进行了诚实的讨论。目前模型在某些复杂场景下仍可能出现细节模糊或不自然的情况,特别是在生成包含大量精细纹理的图像时。此外,虽然模型在标准基准测试中表现优秀,但与最先进的潜在扩散模型相比,在某些特定指标上仍有提升空间。
从技术发展趋势来看,PixNerd代表了图像生成领域的一个重要方向转变。它证明了端到端的像素空间方法不仅可行,而且具有显著优势。这种方法避免了传统两阶段架构的累积误差问题,为构建更可靠、更高质量的图像生成系统提供了新思路。
对于普通用户来说,PixNerd的意义在于它有望提供更稳定、更高质量的AI绘画体验。由于避免了VAE解码过程中的常见问题,用户生成的图像将更少出现奇怪的伪影或失真现象。同时,模型的高效性意味着用户能够以更低的计算成本获得高质量的生成结果。
研究团队已经将PixNerd的代码和预训练模型开源,这为研究社区和开发者提供了宝贵资源。开发者可以基于PixNerd构建各种应用,从专业的设计工具到消费级的创意应用,都有广阔的发展空间。同时,开源也促进了技术的进一步发展和优化。
展望未来,PixNerd技术还有很大的发展潜力。研究团队提到了几个可能的改进方向,包括引入原生分辨率训练、支持多宽高比生成、以及探索像素空间的后训练优化技术。这些改进将进一步提升模型的实用性和适用范围。
从更广阔的视角来看,PixNerd的成功证明了简化架构设计的重要性。在追求模型性能的同时,保持系统的简洁性和可理解性同样重要。这种设计哲学不仅有助于技术的推广应用,也为未来的研究提供了有价值的参考。
总的来说,PixNerd不仅在技术上实现了突破,更重要的是它为图像生成领域提供了一个全新的思路。通过巧妙地结合神经场技术和扩散模型,研究团队创造了一个既高效又高质量的图像生成方案,为AI艺术创作的未来发展开辟了新道路。
Q&A
Q1:PixNerd是什么?它与传统AI绘画有什么不同?
A:PixNerd是南京大学开发的新型AI图像生成模型,它的最大特点是直接在像素层面工作,不需要像传统方法那样先把图像压缩成代码再还原。这就像让画家直接在画布上作画,而不是先把想法写成文字描述,再让别人根据描述来画画,避免了信息丢失和质量下降。
Q2:PixNerd的神经场技术是怎么工作的?
A:神经场技术就像给AI配备了智能画笔工具集。当AI需要绘制某个区域时,它会先为这个区域定制一套专门的"绘画工具"(神经网络参数),然后根据每个像素的位置信息,用这套工具精确决定该像素的颜色。这种方法让AI能够在保持高效率的同时,处理像素级别的精细细节。
Q3:普通用户能使用PixNerd吗?效果如何?
A:研究团队已经在GitHub和Hugging Face平台开源了PixNerd的代码和模型,技术人员可以直接使用。对于普通用户,PixNerd生成的图像质量很高,在标准测试中达到了与传统方法相当的水平,但避免了常见的图像伪影问题,生成速度也更快,未来有望集成到各种AI绘画应用中。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。