硬件要求越来越低,生成速度越来越快。
stability ai 作为文本到图像的先驱,不仅引领潮流,也不断在模型质量上取得新突破。这次,它实现了性价比的突破。
就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布,仅允许非商业使用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
原文链接:https://stability.ai/news/introducing-stable-cascade
代码地址:https://github.com/Stability-AI/StableCascade
体验地址:https://huggingface.co/spaces/multimodalart/stable-cascade
一如既往简单操作就能够生成目标图像:输入对图像的文字描述即可。
图源:https://twitter.com/multimodalart/status/175739198107490
3446
Stable Cascade 的生成速度极快。X 平台用户 @GozukaraFurkan 发文表示它只需要大约 9GB 的 GPU 内存,且速度依旧能保持得较好。
图源:https://twitter.com/skirano/status/1757479638324883753
网友在生成过程中发现新模型在构图和细节方面有明显的提升,文字生成有了很大的进步:生成较短的单词 / 词组正确率比较高,长句也有一定概率可以完成(限英文),文字与画面的融合也非常好。
图源:https://twitter.com/ZHOZHO672070/status/1757779330443215065
图源:https://twitter.com/tyyleai/status/1757883017329054104
用户 @AIWarper 尝试了一些不同的艺术家风格测试。
prompt:Nightmare on Elm Street。艺术家风格参考如下:左上为 Makoto Shinkai,左下为 Tomer Hanuka,右上为 Raphael Kirchner,右下为 Takato Yamamoto。
不过,生|成人|物面部时可以发现,人物的皮肤细节并不太好,有种「十级磨皮」的感觉。
图源:https://twitter.com/vitor_dlucca/status/1757511080287355093
技术细节
Stable Cascade 与 Stable Diffusion 模型系列不同, 它建立在由三个不同模型组成的管道上:阶段 A、B 和 C。这种架构可以对图像进行分层压缩,利用高度压缩的潜在空间实现较为出色的输出。这几个部分是如何组合在一起的呢?
潜像生成器阶段(C 阶段)将用户输入转换为紧凑的 24x24 潜在表征,然后传递给潜在解码器阶段(阶段 A 和 B),用于压缩图像,这类似于 Stable Diffusion 中 VAE 的工作,但能够实现更高的压缩。
通过将文本条件生成(阶段 C)与解码到高分辨率像素空间(阶段 A 和 B)解耦,我们就可以在阶段 C 上完成额外的训练或微调,包括 ControlNets 和 LoRA,与训练类似大小的 Stable Diffusion 模型相比,这成本可以缩减至其的十六分之一。阶段 A 和 B 可以选择性地进行微调以实现额外的控制,但这将类似于微调 Stable Diffusion 模型中的 VAE。在大多数情况下,这样做的收益微乎其微。因此,对于大多数用途,Stability AI 官方建议仅训练阶段 C 并使用阶段 A 和 B 的原始状态。
阶段 C 和 B 将发布两种不同的模型:阶段 C 的 1B 和 3.6B 参数模型,阶段 B 的 700M 和 1.5B 参数模型。推荐使用 3.6B 参数的模型作为阶段 C,因为该模型具有最高质量的输出。不过,对于那希望有最低硬件要求的用户,可以使用 1B 参数版本。对于阶段 B,发布的两者都能取得很好的结果,但 1.5B 参数的版本在重建细节方面表现更佳。得益于 Stable Cascade 的模块化方法,推理所需的预期 VRAM 要求可以保持在约 20GB。这可通过使用较小的变体进一步降低,需要注意的是,这也可能会降低最终输出质量。
比较
在评估中,Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果:
Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较
Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异
Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数,但它仍然具有更快的推理时间。
附加功能
除了标准的文本到图像生成外,Stable Cascade 还可以生成图像变体和图像到图像的生成。
图像变体通过使用 CLIP 从给定图像中提取图像嵌入,然后将其返回给模型。下图是示例输出。左侧图像显示原始图像,而其右侧的四个是生成的变体。
图像到图像通过简单地向给定图像添加噪声,然后以此为起点生成图像。下面是对左侧图像添加噪声,然后以此为起点进行生成的示例。
训练、微调、ControlNet 和 LoRA 的代码
随着 Stable Cascade 的发布,Stability AI 将发布用于训练、微调、ControlNet 和 LoRA 的所有代码,以降低进一步试验此架构的要求。以下将与模型一起发布的一些 ControlNets:
修补 / 扩图:输入一张图片,并配上一个遮罩,以配合文字提示。然后,模型将根据提供的文本提示填充图像的遮罩部分。
Canny Edge:根据输入模型的现有图像的边缘生成新图像。根据 Stability AI 测试,它还可以扩展草图。
顶部为输入模型的草图,底部为输出结果
2 倍超分辨率:将图像的分辨率提升至其边长的 2 倍,例如将 1024 x 1024 的图像转化为 2048 x 2048 的输出,也可以用于由阶段 C 生成的潜在表示。
这样的性价比,你喜欢吗?
# 架构
# edge
# github
# stable diffusion
# https
# prompt
# 更高
# 此为
# 进行了
# 上为
# 的是
# 很好
# 就在
# 还可以
# 都能
# 两种
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
5分钟教你用AI生成婚礼流程策划案,备婚新人必备
如何使用 DeepSeek 进行大规模舆情关键词提取
随机故事生成器:激发创意,轻松创作精彩故事
Ignite & Sell Assistant:AI 邮件营销终极指南
ChatGPT怎样一键生成PPT_ChatGPT生成PPT方法【步骤】
AI驱动音频优化:提升音质的终极指南
如何用AI帮你创建自定义表情符号(Emoji)?聊天斗图更有趣
Telegram与n8n集成教程:自动化AI助手构建指南
AI驱动的潜在客户挖掘:15分钟搭建营销机构并获利
AI合同提取指南:利用智能实现高效采购和节省成本
CanvaAI抠图怎么批量处理_CanvaAI批量抠图与团队协作功能【指南】
AI海报设计终极指南:工具、技巧与避坑全攻略
微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】
Midjourney怎么用一键生成壁纸_Midjourney壁纸生成教程【教程】
1-11月30万元以上插电混动车型销量榜:问界双车前二
人工智能时代:你需要知道的真相和未来趋势
AI Excel公式生成工具有哪些_一键生成函数公式的AI工具推荐
ChatGPT官方主页入口 ChatGPT网页版快速进入指南
批改网ai检测工具怎么检测多语言作文_批改网ai检测工具多语言切换与检测支持【技巧】
AI猫咪视频创作指南:轻松打造百万级YouTube Shorts
智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】
2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新
tofai入口官方网站 tofai网页版入口地址
如何用AI帮你快速理解API文档?开发者必备高效技巧
解密Poppy Playtime怪物:全面解析玩具世界背后的故事
DeepSeek金融数据分析教程 DeepSeek量化交易策略开发
稿定设计AI抠图怎么修复瑕疵_稿定设计AI瑕疵修复与手动微调【步骤】
Kling 2.0终极指南:AI视频创作秘籍,告别低质量
Pictory AI视频制作平台深度评测:功能、价格与使用指南
AI论文写作终极指南:DeepSeek与HIX Bypass结合使用教程
OpenAI Sora 2:AI视频生成新纪元
网络安全警钟:揭秘“美足”背后隐藏的危机与防范
DeepSeek分析Excel怎么用_DeepSeek分析Excel使用方法详细指南【教程】
使用 ChatGPT 自动生成月度财务分析报告
挖掘用户数据:洞察与策略,提升播客全球影响力
Android图像翻译器应用:技术、应用与未来展望
通义千问怎么设置功能偏好_通义千问偏好设置【教程】
文心一言辅助进行行业深度研究报告撰写
AI超级英雄大乱斗:蜘蛛侠、死侍的爆笑奇幻之旅
JSON Prompting: 创造爆款AI广告的秘诀和方法
AI写作工具检测:学生如何避免学术不端行为
ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法
百度输入法智能预测怎么关 百度输入法ai联想词关闭
AI标语生成器:轻松打造品牌口号,提升品牌价值
佐糖AI抠图能否识别商品白底_佐糖AI电商白底图自动处理流程【教程】
Recall:打造你的AI知识库,提升记忆力与效率
美图AI海报设计怎样匹配品牌VI_美图AI海报设计VI匹配与色彩校准【教程】
Depseek怎么设置总结汇报重点_Depseek重点突出与关键词标注方法【步骤】
Power BI: 如何在 Power Query 中更改数据类型
如何用AI帮你制定个人OKR?目标管理从未如此简单
2024-02-16
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。