生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了


硬件要求越来越低,生成速度越来越快。

stability ai 作为文本到图像的先驱,不仅引领潮流,也不断在模型质量上取得新突破。这次,它实现了性价比的突破。

就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布,仅允许非商业使用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 原文链接:https://stability.ai/news/introducing-stable-cascade

  • 代码地址:https://github.com/Stability-AI/StableCascade

  • 体验地址:https://huggingface.co/spaces/multimodalart/stable-cascade

一如既往简单操作就能够生成目标图像:输入对图像的文字描述即可。

                              图源:https://twitter.com/multimodalart/status/1757391981074903446

Stable Cascade 的生成速度极快。X 平台用户 @GozukaraFurkan 发文表示它只需要大约 9GB 的 GPU 内存,且速度依旧能保持得较好。

                             图源:https://twitter.com/skirano/status/1757479638324883753

网友在生成过程中发现新模型在构图和细节方面有明显的提升,文字生成有了很大的进步:生成较短的单词 / 词组正确率比较高,长句也有一定概率可以完成(限英文),文字与画面的融合也非常好。

                               图源:https://twitter.com/ZHOZHO672070/status/1757779330443215065

                                                                         图源:https://twitter.com/tyyleai/status/1757883017329054104

用户 @AIWarper 尝试了一些不同的艺术家风格测试。

prompt:Nightmare on Elm Street。艺术家风格参考如下:左上为 Makoto Shinkai,左下为 Tomer Hanuka,右上为 Raphael Kirchner,右下为 Takato Yamamoto。

不过,生|成人|物面部时可以发现,人物的皮肤细节并不太好,有种「十级磨皮」的感觉。

                              图源:https://twitter.com/vitor_dlucca/status/1757511080287355093

技术细节

Stable Cascade 与 Stable Diffusion 模型系列不同, 它建立在由三个不同模型组成的管道上:阶段 A、B 和 C。这种架构可以对图像进行分层压缩,利用高度压缩的潜在空间实现较为出色的输出。这几个部分是如何组合在一起的呢?

潜像生成器阶段(C 阶段)将用户输入转换为紧凑的 24x24 潜在表征,然后传递给潜在解码器阶段(阶段 A 和 B),用于压缩图像,这类似于 Stable Diffusion 中 VAE 的工作,但能够实现更高的压缩。

通过将文本条件生成(阶段 C)与解码到高分辨率像素空间(阶段 A 和 B)解耦,我们就可以在阶段 C 上完成额外的训练或微调,包括 ControlNets 和 LoRA,与训练类似大小的 Stable Diffusion 模型相比,这成本可以缩减至其的十六分之一。阶段 A 和 B 可以选择性地进行微调以实现额外的控制,但这将类似于微调 Stable Diffusion 模型中的 VAE。在大多数情况下,这样做的收益微乎其微。因此,对于大多数用途,Stability AI 官方建议仅训练阶段 C 并使用阶段 A 和 B 的原始状态。

阶段 C 和 B 将发布两种不同的模型:阶段 C 的 1B 和 3.6B 参数模型,阶段 B 的 700M 和 1.5B 参数模型。推荐使用 3.6B 参数的模型作为阶段 C,因为该模型具有最高质量的输出。不过,对于那希望有最低硬件要求的用户,可以使用 1B 参数版本。对于阶段 B,发布的两者都能取得很好的结果,但 1.5B 参数的版本在重建细节方面表现更佳。得益于 Stable Cascade 的模块化方法,推理所需的预期 VRAM 要求可以保持在约 20GB。这可通过使用较小的变体进一步降低,需要注意的是,这也可能会降低最终输出质量。

比较

在评估中,Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果:

Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较

                                Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异

Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数,但它仍然具有更快的推理时间。

附加功能

除了标准的文本到图像生成外,Stable Cascade 还可以生成图像变体和图像到图像的生成。

图像变体通过使用 CLIP 从给定图像中提取图像嵌入,然后将其返回给模型。下图是示例输出。左侧图像显示原始图像,而其右侧的四个是生成的变体。

图像到图像通过简单地向给定图像添加噪声,然后以此为起点生成图像。下面是对左侧图像添加噪声,然后以此为起点进行生成的示例。

训练、微调、ControlNet 和 LoRA 的代码

随着 Stable Cascade 的发布,Stability AI 将发布用于训练、微调、ControlNet 和 LoRA 的所有代码,以降低进一步试验此架构的要求。以下将与模型一起发布的一些 ControlNets:

修补 / 扩图:输入一张图片,并配上一个遮罩,以配合文字提示。然后,模型将根据提供的文本提示填充图像的遮罩部分。

Canny Edge:根据输入模型的现有图像的边缘生成新图像。根据 Stability AI 测试,它还可以扩展草图。

                              顶部为输入模型的草图,底部为输出结果

2 倍超分辨率:将图像的分辨率提升至其边长的 2 倍,例如将 1024 x 1024 的图像转化为 2048 x 2048 的输出,也可以用于由阶段 C 生成的潜在表示。

这样的性价比,你喜欢吗?


# 架构  # edge  # github  # stable diffusion  # https  # prompt  # 更高  # 此为  # 进行了  # 上为  # 的是  # 很好  # 就在  # 还可以  # 都能  # 两种 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 5分钟教你用AI生成婚礼流程策划案,备婚新人必备  如何使用 DeepSeek 进行大规模舆情关键词提取  随机故事生成器:激发创意,轻松创作精彩故事  Ignite & Sell Assistant:AI 邮件营销终极指南  ChatGPT怎样一键生成PPT_ChatGPT生成PPT方法【步骤】  AI驱动音频优化:提升音质的终极指南  如何用AI帮你创建自定义表情符号(Emoji)?聊天斗图更有趣  Telegram与n8n集成教程:自动化AI助手构建指南  AI驱动的潜在客户挖掘:15分钟搭建营销机构并获利  AI合同提取指南:利用智能实现高效采购和节省成本  CanvaAI抠图怎么批量处理_CanvaAI批量抠图与团队协作功能【指南】  AI海报设计终极指南:工具、技巧与避坑全攻略  微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】  Midjourney怎么用一键生成壁纸_Midjourney壁纸生成教程【教程】  1-11月30万元以上插电混动车型销量榜:问界双车前二  人工智能时代:你需要知道的真相和未来趋势  AI Excel公式生成工具有哪些_一键生成函数公式的AI工具推荐  ChatGPT官方主页入口 ChatGPT网页版快速进入指南  批改网ai检测工具怎么检测多语言作文_批改网ai检测工具多语言切换与检测支持【技巧】  AI猫咪视频创作指南:轻松打造百万级YouTube Shorts  智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】  2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新  tofai入口官方网站 tofai网页版入口地址  如何用AI帮你快速理解API文档?开发者必备高效技巧  解密Poppy Playtime怪物:全面解析玩具世界背后的故事  DeepSeek金融数据分析教程 DeepSeek量化交易策略开发  稿定设计AI抠图怎么修复瑕疵_稿定设计AI瑕疵修复与手动微调【步骤】  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  Pictory AI视频制作平台深度评测:功能、价格与使用指南  AI论文写作终极指南:DeepSeek与HIX Bypass结合使用教程  OpenAI Sora 2:AI视频生成新纪元  网络安全警钟:揭秘“美足”背后隐藏的危机与防范  DeepSeek分析Excel怎么用_DeepSeek分析Excel使用方法详细指南【教程】  使用 ChatGPT 自动生成月度财务分析报告  挖掘用户数据:洞察与策略,提升播客全球影响力  Android图像翻译器应用:技术、应用与未来展望  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  文心一言辅助进行行业深度研究报告撰写  AI超级英雄大乱斗:蜘蛛侠、死侍的爆笑奇幻之旅  JSON Prompting: 创造爆款AI广告的秘诀和方法  AI写作工具检测:学生如何避免学术不端行为  ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法  百度输入法智能预测怎么关 百度输入法ai联想词关闭  AI标语生成器:轻松打造品牌口号,提升品牌价值  佐糖AI抠图能否识别商品白底_佐糖AI电商白底图自动处理流程【教程】  Recall:打造你的AI知识库,提升记忆力与效率  美图AI海报设计怎样匹配品牌VI_美图AI海报设计VI匹配与色彩校准【教程】  Depseek怎么设置总结汇报重点_Depseek重点突出与关键词标注方法【步骤】  Power BI: 如何在 Power Query 中更改数据类型  如何用AI帮你制定个人OKR?目标管理从未如此简单 

 2024-02-16

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.