之前订阅了 Stability AI 的Newsletter,这周收到他们的最新更新:Introducing Stable Diffusion 3.5。
我和 Bob 请教了一下他对 3.5 的看法。他评价道:“3.5 的性能确实比 3 要强不少,但图像画质稍逊于 Flux。不过,3.5 的优势在于支持大模型的直接训练,而 Flux 由于采用蒸馏技术,模型训练上会受到一定限制。如果社区决定支持 SD3.5,那么 3.5 更有可能成为创造下一个爆款 Pony 的基础,而 Flux 在这方面稍显劣势。”
Stable Diffusion 3.5是SD系列迄今最先进的模型。此次更新包含多个可定制的模型版本,支持消费级硬件,且在Stability AI Community License许可下开放使用。
多种模型
Stable Diffusion 3.5 Large:基准模型拥有80亿参数,画质优异且能高度匹配指令,是 Stable Diffusion 系列中最强大的模型,适用于1百万像素分辨率的专业场景。https://huggingface.co/stabilityai/stable-diffusion-3.5-large Stable Diffusion 3.5 Large Turbo:这是 Stable Diffusion 3.5 Large 的蒸馏版本,4步即可生成高质量图像,显著提升了生成速度,同时保证了指令匹配的准确性。https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo Stable Diffusion 3.5 Medium:该模型具有25亿参数,采用改进的 MMDiT-X 架构和训练方法,能“即开即用”地运行在消费级硬件上,在质量与可定制性之间实现了平衡,支持0.25至2百万像素分辨率的图像生成。将于10月29日发布。
开发过程
在开发这些模型的过程中,研发团队优先考虑了定制性,以提供一个灵活的基础供用户进一步构建。为此,团队在Transformer模块中集成了Query-Key Normalization,这不仅稳定了模型的训练过程,还简化了后续微调和开发的难度。
为了支持如此高的下游灵活性,团队在设计中进行了权衡。用户在使用相同提示词但不同种子时可能会得到更多样化的输出,这一特性是有意为之,以便在基础模型中保留更广泛的知识库和多样化风格。不过,这也意味着在提示词缺乏明确性时,生成结果可能会出现一定的随机性,且美学效果会有所不同。
针对Medium模型,团队对架构和训练流程进行了多项调整,以增强生成质量、一致性及多分辨率的生成能力。
Stable Diffusion 3.5 优势
Stable Diffusion 3.5在以下几个方面表现尤为突出,使其成为市场上最具定制性、最易用的图像生成模型之一,并在提示词响应度和图像质量上保持了领先水平:
定制性:用户可轻松微调模型,以满足特定的创意需求,或基于自定义流程构建应用程序。
高效性能:模型经过优化,能够在标准消费级硬件上流畅运行,特别是Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo,无需高昂的硬件资源。
多样化输出:生成的图像能够真实代表世界,不局限于单一类型的人物,支持不同的肤色和特征,且无需复杂的提示词设置。
多样风格:支持生成丰富的视觉风格,包括3D、摄影、绘画、线条艺术等几乎所有的视觉美学风格。
对比
Stable Diffusion 3.5 Large在提示词响应性上领先市场,且在图像质量上可与体积更大的模型媲美。Stable Diffusion 3.5 Large Turbo在相同体积的模型中具备极快的推理速度,同时在图像质量和提示词响应上也表现出色,足以与同类非蒸馏模型竞争。Stable Diffusion 3.5 Medium则在提示词响应和图像质量间实现了平衡,在同级别模型中表现优异,是追求高效优质生成效果的理想选择。
除了可以在 Hugging Face 上(链接上面已经给出)下载模型权重自行托管,还可以通过以下平台访问该模型:
Stability AI API:https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post Replicate:https://replicate.com/stability-ai/stable-diffusion-3.5-large ComfyUI:https://blog.comfy.org/sd3-5-comfyui/ DeepInfra:https://deepinfra.com/stabilityai/sd3.5