AI 从简单的基于文本的食谱中生成已完成膳食的图像
- 新的基于深度学习的系统可以从基于文本的长描述中自动生成图片。
- 研究人员展示了一个网络,该网络将食谱作为输入并从头开始构建图片。
从简短的视觉描述生成图片是一项具有挑战性的任务,并且在计算机视觉中有许多应用。最近的研究证明,生成对抗网络(GAN)可以有效地合成高质量、逼真的低分辨率和低变异性图片。
以色列特拉维夫大学的一个研究团队最近做出的一项贡献可以帮助加速该领域的研究。他们建立了一个基于深度学习的模型,可以从基于文本的描述中自动创建图片。
特别是,他们展示了他们的系统,可以根据简单的书面食谱生成一顿饭的图像。为此,该系统结合了最先进的 Stacked GAN 和学习跨模态嵌入,用于烹饪食谱和食物图像。
条件生成对抗网络
基本上,GAN 由两个模型(生成器和判别器)组成,这些模型经过训练可以相互竞争。生成器旨在合成与原始数据分布相似的图像,而鉴别器的工作是区分原始图像和合成图像。
在这项工作中,研究人员使用了条件 GAN,其中生成器和鉴别器都被迫考虑特定条件。他们提出了两种嵌入技术:语义和非语义正则化。这些技术由三个步骤组成:
- 初始嵌入成分和烹饪说明。
- 整个配方的组合神经嵌入。
- 使用高级分类目标整合语义正则化损失。
条件 GAN 在 52,000 个基于文本的食谱及其相应的图片上进行了训练。它使用带有 CUDA 深度神经网络库的 NVIDIA TITAN X GPU 进行训练。训练完成后,系统会根据长描述(不包含任何视觉信息)构建食谱外观的图片。
参考:arXiv:1901.02404 |特拉维夫大学
人工评价
该网络将食谱作为输入,并创建一张最能反映基于文本的食物描述的图片(从头开始)。这里真正令人印象深刻的是,系统无法访问菜谱的标题——否则,工作会变得太简单了——菜谱的文本很长。这使得即使是人类也难以完成这项任务。
研究人员提供
为了更好地评估合成图片,该团队让 30 人以 1 到 5 的比例判断最吸引人的图片。他们展示了由每种嵌入技术生成的 10 对相应的结果图片(随机选择)。
结果表明,非语义正则化方法通过产生具有照片般逼真细节的更生动的图片来优于语义正则化。事实上,有些人发现很难区分真实图像和合成图像。
阅读:AI 可以生成数百万种艺术组合以获得逼真的效果
此外,这两种嵌入技术都成功地生成了“类似粥”的食物图片(例如沙拉、汤和米饭),但难以创建具有独特形状的食物图片(例如鸡肉、汉堡包和饮料)。
工业技术