早期的AI模型主要被用于学习一些相对简单的图像分布或者进行一些图像编辑,常见的应用包括:人脸生成、图像风格迁移、图像超分辨率、图像补全和可控图像编辑。 做交互设计年,我为何转岗到产品经理? 真正转岗之后,我发现很多工作还是超出了自己的想象。产品经理的工作确实比较杂。理论上,产品经理的工作包括了产品的方方面面,从市场研究、用户调研、数据分析... 查看详情 > 但早期的图像生成/编辑网络与文本的多模态交互非常有限。
此外,GAN网络通常较难训练,常遇到模式坍塌(mode collapse和不稳定等问题,模型容量也决定了可利用数 加纳电话号码列表 据规模的上限;VAE则常遇到生成的图像模糊等问题。 第二阶段:文生图模型的飞跃 随着扩散生成(diffusion技术的突破、大规模多模态数据集(如LAION数据集和多模态表征模型(如OpenAI发布的CLIP模型的出现与发展,D图像生成领域在年前后取得重要进展。图像生成模型开始与文本进行深入的交互,大规模文生图模型惊艳登场。
当OpenAI在年初发布DALLE时,AIGC技术开始真正显现出巨大的商业潜力。DALLE可以从任意的文本提示中生成真实和复杂的图像,并且成功率大大提高。一年之内,大量文生图模型迅速跟进,包括DALLE (于年月升级和Imagen(谷歌于年月发布。虽然这些技术当时还无法高效帮助艺术创作者产出能够直接投入生产的内容,但它们已经吸引了公众的注意,激发了艺术家、设计师和游戏工作室的创造力和生产潜力。 第三阶段:从惊艳到生产力 随着技术细节上的完善和工程优化上的迭代,D AIGC得到迅猛发展。
|