亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

微软推出 AttnGAN:将文本描述转化为逼真图像的人工智能

虽然之前的努力已经改进了文本到图像的合成,但 Microsoft 的 AttnGAN 通过利用大量标记图像库,根据简洁的文本提示生成逼真的图像,从而推动了该领域的发展。

AttnGAN 由微软研究院开发,可解析提示中的单个单词以指导图像构建。据该团队称,该方法的图像质量比之前最先进的模型高出大约三倍。

机器人的创作过程

想象一下,有人要求画一只蓝色的鸟,有红色的翅膀和短喙。您将从粗略的轮廓开始,然后填充颜色和细节。 AttnGAN 遵循相同的逻辑,分析每个单词以构建详细、连贯的图像。

该机器人可以渲染任何主题(从小工具到野生动物),并且经常添加未明确提及的与上下文相关的背景元素,展示其“想象”细节的能力。

图像是从头开始逐像素合成的,允许模型创建现实中可能不存在的场景。这种生成任务本质上比仅仅标记现有照片更复杂。

AttnGAN 如何生成图像

  1. 生成器: 根据文字描述创建图像。
  2. 鉴别器: 根据描述评估生成图像的真实性。

两个模型都经过联合训练,使生成器能够从鉴别器的反馈中学习并逐渐实现更高的保真度。

训练涉及数千个配对的照片字幕数据集,教 AttnGAN 将特定单词映射到视觉模式。例如,“大象”一词会触发模型生成与典型大象外观相匹配的图像。

该系统将复杂的句子分解为单独的单词,将每个单词与图像的一个区域对齐。在训练过程中,它还会学习“人工常识”来填补缺失的细节,确保构图真实。

微软推出 AttnGAN:将文本描述转化为逼真图像的人工智能

在这个例子中,提示只提到了一只鸟。 AttnGAN 智能地将这只鸟放在树枝上,这是从训练数据中学习到的常见现实世界环境。这证明了模型应用上下文知识的能力。

arXiv:1711.10485 – 微软研究论文详细介绍了 AttnGAN。

微软推出 AttnGAN:将文本描述转化为逼真图像的人工智能

当被挑战描绘一辆漂浮在湖上的双层巴士时,该模型产生了一个模糊但可识别的混合场景,突出了它在调和提示中的冲突元素方面的努力。

性能和用例

AttnGAN 超越了之前的基准,在 COCO 数据集的 inception 分数上实现了 170.25% 的提升,在 CUB 数据集上实现了 14.14% 的提升。

潜在的应用包括室内设计师的草图助手、声控照片细化,以及进一步开发的完全自动化的剧本动画制作。

其他人工智能艺术生成器

微软并不是唯一一家将艺术与人工智能融合在一起的公司。谷歌的 DeepDream 创建了 2016 年展示的迷幻图像,而其人工智能则制作了音乐和语音合成,例如 Tacotron2。Facebook 和 Nvidia 还发布了汽车、船舶、动物甚至合成名人头像的生成模型。

了解 Google 的类人语音 AI Tacotron2 .


工业技术

  1. 数字逻辑功能
  2. 制造业务入门的 7 个步骤
  3. 人与人的对比。技术:供应链最依赖的地方
  4. 汽车制造如何从物联网中受益?
  5. Perfomax – 针对钛金属进行了优化
  6. 8无心磨削原理
  7. 自制Theremin:电子自制Theremin解释
  8. 工业 4.0 和分布式制造允许更可持续的生产
  9. 加州制造商为自然灾害做准备的 5 种方法
  10. 如何连接 240V 热水器恒温器 - 不连续?
  11. 3 PCB高速信号电路设计中的布线技巧
  12. FDA 提出医疗器械唯一器械标识 (UDI) 规则