Stable Diffusion 3.5 更新

之前订阅了 Stability AI 的Newsletter，这周收到他们的最新更新：Introducing Stable Diffusion 3.5。

我和 Bob 请教了一下他对 3.5 的看法。他评价道：“3.5 的性能确实比 3 要强不少，但图像画质稍逊于 Flux。不过，3.5 的优势在于支持大模型的直接训练，而 Flux 由于采用蒸馏技术，模型训练上会受到一定限制。如果社区决定支持 SD3.5，那么 3.5 更有可能成为创造下一个爆款 Pony 的基础，而 Flux 在这方面稍显劣势。”

Stable Diffusion 3.5是SD系列迄今最先进的模型。此次更新包含多个可定制的模型版本，支持消费级硬件，且在Stability AI Community License许可下开放使用。

多种模型

Stable Diffusion 3.5 Large：基准模型拥有80亿参数，画质优异且能高度匹配指令，是 Stable Diffusion 系列中最强大的模型，适用于1百万像素分辨率的专业场景。https://huggingface.co/stabilityai/stable-diffusion-3.5-large
Stable Diffusion 3.5 Large Turbo：这是 Stable Diffusion 3.5 Large 的蒸馏版本，4步即可生成高质量图像，显著提升了生成速度，同时保证了指令匹配的准确性。https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
Stable Diffusion 3.5 Medium：该模型具有25亿参数，采用改进的 MMDiT-X 架构和训练方法，能“即开即用”地运行在消费级硬件上，在质量与可定制性之间实现了平衡，支持0.25至2百万像素分辨率的图像生成。将于10月29日发布。

开发过程

在开发这些模型的过程中，研发团队优先考虑了定制性，以提供一个灵活的基础供用户进一步构建。为此，团队在Transformer模块中集成了Query-Key Normalization，这不仅稳定了模型的训练过程，还简化了后续微调和开发的难度。

为了支持如此高的下游灵活性，团队在设计中进行了权衡。用户在使用相同提示词但不同种子时可能会得到更多样化的输出，这一特性是有意为之，以便在基础模型中保留更广泛的知识库和多样化风格。不过，这也意味着在提示词缺乏明确性时，生成结果可能会出现一定的随机性，且美学效果会有所不同。

针对Medium模型，团队对架构和训练流程进行了多项调整，以增强生成质量、一致性及多分辨率的生成能力。

Stable Diffusion 3.5 优势

Stable Diffusion 3.5在以下几个方面表现尤为突出，使其成为市场上最具定制性、最易用的图像生成模型之一，并在提示词响应度和图像质量上保持了领先水平：

定制性：用户可轻松微调模型，以满足特定的创意需求，或基于自定义流程构建应用程序。
高效性能：模型经过优化，能够在标准消费级硬件上流畅运行，特别是Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo，无需高昂的硬件资源。
多样化输出：生成的图像能够真实代表世界，不局限于单一类型的人物，支持不同的肤色和特征，且无需复杂的提示词设置。
多样风格：支持生成丰富的视觉风格，包括3D、摄影、绘画、线条艺术等几乎所有的视觉美学风格。

对比

Stable Diffusion 3.5 Large在提示词响应性上领先市场，且在图像质量上可与体积更大的模型媲美。Stable Diffusion 3.5 Large Turbo在相同体积的模型中具备极快的推理速度，同时在图像质量和提示词响应上也表现出色，足以与同类非蒸馏模型竞争。Stable Diffusion 3.5 Medium则在提示词响应和图像质量间实现了平衡，在同级别模型中表现优异，是追求高效优质生成效果的理想选择。

使用

除了可以在 Hugging Face 上（链接上面已经给出）下载模型权重自行托管，还可以通过以下平台访问该模型：

Stability AI API：https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post
Replicate：https://replicate.com/stability-ai/stable-diffusion-3.5-large
ComfyUI：https://blog.comfy.org/sd3-5-comfyui/
DeepInfra：https://deepinfra.com/stabilityai/sd3.5