Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字


现在,已是2025年底。

深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

十年来,我们是如何走到今天这一步的?

在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。

一切,都要从十年前的那个夏天说起。

开端(2012-2015)

深度神经网络面世之后,人们意识到:它将彻底改变图像分类。

同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么?

这就是「人工智能之夏」诞生的伊始。

2012 年 12 月

一切发端于此。

这一年,论文《深度卷积神经网络的ImageNet分类》横空出世。

论文作者之一,就是「AI三巨头」之一的Hinton。

它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集(ImageNet)结合在一起。

2014 年 12 月

Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。

GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。

它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。

最终,只有「生成器」被保留在系统之外,并用于图像合成。

Hello World!来自Goodfellow等人2014年论文的GAN生|成人|脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除

2015 年 11 月

具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。

在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。

这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?

GAN的五年(2015-2025)

这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。

期间,GAN架构的论文开始爆炸式井喷。

项目地址:https://github.com/nightrome/really-awesome-gan

与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。

第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。

与此同时,transformer架构彻底改变了NLP。

在不久的将来,这件事会对图像合成产生重大影响。

2017 年 6 月

《Attention Is All You Need》论文发布。

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。

自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。

2018 年 7 月

《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。

这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。

2018-20年

NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。

在《使用有限数据训练生成对抗网络》这篇论文中,介绍了最新的StyleGAN2-ada。

GAN 生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点

2025 年 5 月

论文《语言模型是小样本学习者》发表。

OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。

2025 年 12 月

论文《用于高分辨率图像合成的Taming transformers》发表。

ViT表明,Transformer架构可用于图像。

本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。

2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。

因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。

Transformer的时代(2025-2025)

Transformer架构的出现,彻底改写了图像合成的历史。

从此,图像合成领域开始抛下GAN。

「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。

《从自然语言监督中学习可迁移视觉模型》这篇论文中,提出了CLIP 架构。

可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。

论文中的CLIP架构

2025 年 1 月

论文《零样本文本到图像生成》发表(另请参阅OpenAI 的博客文章),其中介绍了即将轰动全世界的DALL-E的第一个版本。

这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。

该模型只是「continues」the「sentence」。

数据(250M 图像)包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。

CLIP为图像合成的「多模态」方法奠定了基础。

2025 年 1 月

论文《从自然语言监督学习可迁移视觉模型》发表。

论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。

CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。

模型在论文附录A.1中列出的大量数据集上进行训练。

2025 年 6 月

论文《扩散模型的发布在图像合成方面击败了GAN》发表。

扩散模型引入了一种不同于GAN方法的图像合成方法。

研究者通过从人工添加的噪声中重建图像来学习。

它们与变分自动编码器 (VAE) 相关。

2025 年 7 月

DALL-E mini发布。

它是DALL-E的复制品(体积更小,对架构和数据的调整很少)。

数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。

因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。

2025-2025

Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,仅在2025年作为预印本发布但VQGAN一发布就出现了公共实验)。

就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。

2025 年 4 月

论文《具有 CLIP 潜能的分层文本条件图像生成》发表。

该论文介绍了DALL-E 2。


它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。

同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。

根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。

「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案

2025 年 5-6 月

5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。

6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。

这两篇论文中,介绍了Imagegen和Parti。


以及谷歌对DALL-E 2的回答。

「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop(2025年至今)

虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。

用户仍继续尝试DALL-E mini等较小的模型。

紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。

可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。

「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化

2025 年 8 月

Stability.ai发布Stable Diffusion模型。

在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。

这个模型可以实现与DALL-E 2同等的照片级真实感。

除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。

2025 年 8 月

谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。

DreamBooth提供了对扩散模型越来越细粒度的控制。

然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。

2025 年 10 月

最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。


# ai  # wombo.ai  # 第一个  # 自然语言  # 首次  # 多模  # 这篇  # 可以说  # 提出了  # 等人  # 马德里 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 提升英语口语:地道表达周末体验,语法精讲助你流利交流  百度AI搜索怎样搜索百科知识_百度AI搜索百科频道与词条跳转【技巧】  BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】  AI图像生成偏见:克服与优化,打造更真实的数字形象  稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】  tofai怎么调整层级顺序 tofai图层上下移动方法【步骤】  探索Roblox:虚拟角色定制与互动乐园  lovemo手机网页版 lovemo官方入口地址  豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口  面试必胜:五大面试技巧助你斩获Offer  2025年最佳免费AI艺术生成器:POD终极指南  佐糖AI抠图如何免费使用_佐糖AI免费额度获取与消耗查看【指南】  唐库AI拆书工具怎么查看拆书进度_唐库AI拆书工具进度查看与异常排查【方法】  Claude怎么用_Claude使用方法详细指南【教程】  百度AI助手直接入口 一键直达官网入口  豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  Jetson SegNet: 语义分割深度探索与实践  利用 ChatGPT 进行高质量代码重构与优化  AI女友:时尚穿搭与美丽瞬间的完美融合  老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器  Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】  宝可梦朱紫:如何高效刷闪异色宝可梦,提升游戏体验  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  11月电动两轮车线上销售排名出炉:九号份额达26.9%  利用 DeepSeek 进行大规模 C++ 代码库审计  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  如何通过文心一言进行地道的文言文翻译  EdrawMax全面评测:使用AI轻松绘制流程图和思维导图  AI赋能营销:角色、策略与工具选择全指南  正确安装梁托:终极指南与常见错误规避  教你用AI帮你进行论文选题,快速找到有研究价值的方向  DeepSeek网页版怎么用_DeepSeek网页版使用方法详细指南【教程】  Excel Copilot:AI驱动的强大新功能与实用案例解析  宠物翻译App评测:与猫狗交流的未来科技?  百度网页版ai助手怎么关 百度网页ai对话框屏蔽  探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析  Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】  DeepSeek 辅助进行 Linux 内核参数调优教程  如何用AI帮你检查代码中的潜在安全漏洞?  通义万相IP形象设计怎么用_通义万相IP形象设计使用方法详细指南【教程】  AI猫咪视频创作指南:轻松打造百万级YouTube Shorts  Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本  ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南  Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】  ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】  Hugging Face Transformers:文本分类的完整指南  银行经理写给银行经理的信:实用模板和关键要素  即梦ai怎么生成游戏角色原画_即梦ai游戏角色生成风格与装备细节【教程】  千问怎么设置快捷指令_千问指令创建与一键调用【技巧】 

 2023-05-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.