现在,已是2025年底。
深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
十年来,我们是如何走到今天这一步的?
在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。
一切,都要从十年前的那个夏天说起。
深度神经网络面世之后,人们意识到:它将彻底改变图像分类。
同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么?
这就是「人工智能之夏」诞生的伊始。
2012 年 12 月
一切发端于此。
这一年,论文《深度卷积神经网络的ImageNet分类》横空出世。
论文作者之一,就是「AI三巨头」之一的Hinton。
它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集(ImageNet)结合在一起。
2014 年 12 月
Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。
GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。
它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。
最终,只有「生成器」被保留在系统之外,并用于图像合成。
Hello World!来自Goodfellow等人2014年论文的GAN生|成人|脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除
2015 年 11 月
具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。
在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。
这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?
这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。
期间,GAN架构的论文开始爆炸式井喷。
项目地址:https://github.com/nightrome/really-awesome-gan
与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。
第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。
与此同时,transformer架构彻底改变了NLP。
在不久的将来,这件事会对图像合成产生重大影响。
2017 年 6 月
《Attention Is All You Need》论文发布。
在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。
自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。
2018 年 7 月
《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。
这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。
2018-20年
NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。
在《使用有限数据训练生成对抗网络》这篇论文中,介绍了最新的StyleGAN2-ada。
GAN 生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。
Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点
2025 年 5 月
论文《语言模型是小样本学习者》发表。
OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。
2025 年 12 月
论文《用于高分辨率图像合成的Taming transformers》发表。
ViT表明,Transformer架构可用于图像。
本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。
2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。
因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。
Transformer的时代(2025-2025)
Transformer架构的出现,彻底改写了图像合成的历史。
从此,图像合成领域开始抛下GAN。
「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。
《从自然语言监督中学习可迁移视觉模型》这篇论文中,提出了CLIP 架构。
可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。
论文中的CLIP架构
2025 年 1 月
论文《零样本文本到图像生成》发表(另请参阅OpenAI 的博客文章),其中介绍了即将轰动全世界的DALL-E的第一个版本。
这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。
该模型只是「continues」the「sentence」。
数据(250M 图像)包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。
CLIP为图像合成的「多模态」方法奠定了基础。
2025 年 1 月
论文《从自然语言监督学习可迁移视觉模型》发表。
论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。
CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。
模型在论文附录A.1中列出的大量数据集上进行训练。
2025 年 6 月
论文《扩散模型的发布在图像合成方面击败了GAN》发表。
扩散模型引入了一种不同于GAN方法的图像合成方法。
研究者通过从人工添加的噪声中重建图像来学习。
它们与变分自动编码器 (VAE) 相关。
2025 年 7 月
DALL-E mini发布。
它是DALL-E的复制品(体积更小,对架构和数据的调整很少)。
数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。
因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。
2025-2025
Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。
例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,仅在2025年作为预印本发布但VQGAN一发布就出现了公共实验)。
就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。
2025 年 4 月
论文《具有 CLIP 潜能的分层文本条件图像生成》发表。
该论文介绍了DALL-E 2。
它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。
同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。
根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。
「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案
2025 年 5-6 月
5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。
6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。
这两篇论文中,介绍了Imagegen和Parti。
以及谷歌对DALL-E 2的回答。
「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法
虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。
用户仍继续尝试DALL-E mini等较小的模型。
紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。
可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。
「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化
2025 年 8 月
Stability.ai发布Stable Diffusion模型。
在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。
这个模型可以实现与DALL-E 2同等的照片级真实感。
除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。
2025 年 8 月
谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。
DreamBooth提供了对扩散模型越来越细粒度的控制。
然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。
2025 年 10 月
最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。
# ai
# wombo.ai
# 第一个
# 自然语言
# 首次
# 多模
# 这篇
# 可以说
# 提出了
# 等人
# 马德里
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
提升英语口语:地道表达周末体验,语法精讲助你流利交流
百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】
BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】
AI图像生成偏见:克服与优化,打造更真实的数字形象
稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】
tofai怎么调整层级顺序 tofai图层上下移动方法【步骤】
探索Roblox:虚拟角色定制与互动乐园
lovemo手机网页版 lovemo官方入口地址
豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口
面试必胜:五大面试技巧助你斩获Offer
2025年最佳免费AI艺术生成器:POD终极指南
佐糖AI抠图如何免费使用_佐糖AI免费额度获取与消耗查看【指南】
唐库AI拆书工具怎么查看拆书进度_唐库AI拆书工具进度查看与异常排查【方法】
Claude怎么用_Claude使用方法详细指南【教程】
百度AI助手直接入口 一键直达官网入口
豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】
暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活
Jetson SegNet: 语义分割深度探索与实践
利用 ChatGPT 进行高质量代码重构与优化
AI女友:时尚穿搭与美丽瞬间的完美融合
老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器
Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】
宝可梦朱紫:如何高效刷闪异色宝可梦,提升游戏体验
kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存
11月电动两轮车线上销售排名出炉:九号份额达26.9%
利用 DeepSeek 进行大规模 C++ 代码库审计
Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】
如何通过文心一言进行地道的文言文翻译
EdrawMax全面评测:使用AI轻松绘制流程图和思维导图
AI赋能营销:角色、策略与工具选择全指南
正确安装梁托:终极指南与常见错误规避
教你用AI帮你进行论文选题,快速找到有研究价值的方向
DeepSeek网页版怎么用_DeepSeek网页版使用方法详细指南【教程】
Excel Copilot:AI驱动的强大新功能与实用案例解析
宠物翻译App评测:与猫狗交流的未来科技?
百度网页版ai助手怎么关 百度网页ai对话框屏蔽
探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析
Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】
DeepSeek 辅助进行 Linux 内核参数调优教程
如何用AI帮你检查代码中的潜在安全漏洞?
通义万相IP形象设计怎么用_通义万相IP形象设计使用方法详细指南【教程】
AI猫咪视频创作指南:轻松打造百万级YouTube Shorts
Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本
ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南
Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】
ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】
Hugging Face Transformers:文本分类的完整指南
银行经理写给银行经理的信:实用模板和关键要素
即梦ai怎么生成游戏角色原画_即梦ai游戏角色生成风格与装备细节【教程】
千问怎么设置快捷指令_千问指令创建与一键调用【技巧】
2023-05-15
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。