【食品图像识别】跨模态菜谱检索_菜谱识别

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

定义与挑战

在「跨模态菜谱检索」任务中，给定一张菜品的图像作为模型的输入查询，模型需要检索出制作该菜品相应的菜谱，我们可以将该过程建模为「视觉-文本」的翻译。这项技术可以帮助我们进一步完成实物识别、营养成分估计、菜谱推荐等下游任务。

从技术角度来说，「跨模态菜谱检索」任务要求我们首先识别菜品，再将输入图像与菜谱文本关联起来，并且针对结构化的菜谱文本学习高质量表征。因此，该任务涉及到图像识别与理解、跨模态学习、菜谱文本建模等研究领域。

挑战——食物图像理解

与普通的自然图像相比，实物图像的理解面临着一些独特的挑战。颜色、光照、食材成分、切菜方法等因素都会导致菜品外观存在差异，影响模型对食物的识别效果。

具体到食材成分识别环节，切菜（切片、切丝、切丁等）的方式会导致同一种食材的形状存在较大差异。值得一提的是，图片中的某些食材可能会被遮挡，因而难以识别。此外，拍照的光线、视角等因素也会影响食材成分识别。

挑战——菜谱建模

一份菜谱往往由三个部分组成：

（1）标题：主要的食材、主要的烹饪/切菜方法（2）成分：可以被视为传统视觉标注问题中的关键词（3）制作过程：有一系列食材准备和烹饪过程的细节语句组成。如何合理地整合、利用上述信息，学习到食谱的高质量表征是一个具有挑战性的问题。

挑战——关联性学习

学习图片、食材关键词、烹饪步骤文本之间的相关性也是一个具有挑战性的问题。以上图中的牛排为例，成品的图片中并未显式地体现出柠檬、蒜粉等食材，将可见的物体和食材关键词关联起来是十分困难的。此外，菜品的制作过程包含诸多步骤，如何在跨模态关联学习过程中为视觉无关的描述文本赋予合适的权重也是重要的有待研究的课题。

基于食材原料识别的检索

早期的跨模态菜谱检索工作大多以识别食材原料为基础。我们首先识别出查询图像中的食材原料和菜谱中的切菜/烹饪方法；进而将食材原料和烹饪方法的属性进行匹配，从而检索到相应的菜谱。然而，为了训练具有较强识别能力的模型，我们需要耗费大量的标注成本。

值得一提的是，由于相同的食材可以被做成不同的菜品，基于识别的菜谱检索模型可以被应用于零样本菜谱检索任务中，根据食材原料和外部知识检索出原始数据集中不包含的菜谱。

基于丰富食品属性识别的菜谱检索

然而，从另一个角度来说，对于同样的食材而言，使用不同的烹饪方式可以制成不同的菜品。因此，基于原料识别的菜谱检索方法较为容易得到错误的检索结果，我们还需要在检索过程中考虑菜品的切菜和烹饪的方法。为此，我们进一步提出了基于丰富食品属性识别的菜谱检索工作。

给定输入的菜品图片，我们针对特征图中的各个区域，识别其中的食材原料、切菜方法、烹饪方式的信息，再通过多尺度池化操作得到图片级别的属性，进而将菜谱中抽取出的对应属性与图片属性进行匹配，从而得到更加精准的菜品检索结果。然而，识别原料和属性十分困难，导致最终的检索性能仍然不够理想。

基于跨模态学习的检索

基于识别的跨模态检索依赖于大量的属性信息标注工作，需要耗费巨大的人力成本，在真实应用场景下的可行性较低。为此，研究者们提出基于跨模态学习技术进行菜谱检索。

此类方法的关键之处在于学习查询图像和菜谱文本的联合子空间，我们可以在该空间中计算菜谱和图像的相似度，并基于得到的相似度对候选菜谱进行排序，进而得到最后的菜谱检索结果。一些研究者进一步使用注意力机制赋予背景区域较低权重，让模型重点关注与食材相关的区域，从而提高菜谱与图像相似度计算的准确率。同时，对于菜谱文本，我们赋予与视觉无关的句子较低的权重，理解食谱的因果效应。最后，我们利用经过上述处理的视觉和文本数据学习联合子空间。

2017 年，来自 MIT 的研究人员在论文「Learning Cross-Modal Embeddings for Cooking Recipes and Food Images」中，首次利用食材原料、烹饪步骤与图像的联合子空间进行食谱检索。

此后，一些研究者向跨模态食谱检索模型中引入了注意力机制模块。如上图所示，针对提取出图像中各区域的特征和食谱中的原料关键词，我们首先计算二者之间的相关性，重点突出于有较大概率包含原料关键词列表的视觉区域。接着，我们利用注意力图和文本嵌入特征学习多模态嵌入特征。通过计算该多模态嵌入特征与菜谱特征之间的相似度，我们就可以实现跨模态的菜谱检索。

就损失函数而言，跨模态检索任务通常使用排序损失来优化模型。在构建输入三元组时，我们将查询图像作为 anchor，对菜谱采样得到正样本和负样本，通过优化使得查询图像与正样本之间的相似度大于查询图像与负样本之间的相似度。实验结果表明，通过引入注意力机制可以大幅度提升检索模型的准确率。

菜谱因果效应建模

在菜谱建模方面，我们赋予「不重要的原料」、「人眼不可见的原料」、「图片上未显示出来的原料」以及对食物外形没有影响的句子较低的权重，赋予图像中可见的原料较高的权重，理解烹饪过程中的因果序列。

具体而言，该工作采用了层次化注意力机制，针对文本信息分别从词语、句子两个粒度学习标题、食材成分、烹饪说明的注意力，将各层级的特征向量拼接起来，通过全连接层进行融合后再计算其与图像特征的余弦相似度。在得到了联合子空间后，进而完成菜谱检索任务。

实验结果如上图所示，在引入了层次化注意力机制后，检索的性能会有 2% 左右的提升。使用全部信息对食谱建模的模型性能要优于分别使用标题、食材成分、烹饪说明建模时的模型性能。此外，我们通过可视化实验证明，当我们能够找出关键词、关键句子时，检索的准确率较高。

基于生成对抗网络（GAN）的跨模态食谱检索

在这里插入图片描述
在 CVPR 2019 上，我们在论文「Cross-modal Recipe Retrieval with Generative Adversarial Network」中，通过使用 GAN 学习到更相容的跨模态特征，也可以通过展示根据食谱生成的图像来解释食谱检索的结果。

在这里插入图片描述
我们首先分别通过 CNN、LSTM、层次化 LSTM 提取图像、食谱标题和食材成分、烹饪说明的特征，通过语义损失函数分别优化食谱嵌入和图像嵌入。在 GAN 学习模块中，我们通过对抗损失来优化 GAN，使判别器无法区分来自于菜谱和来自图像的特征，同时通过重建损失使生成的图像与真实图像尽可能接近，最后我们使用两级排序损失使给定的食物图像和检索的菜谱尽可能相似。

在这里插入图片描述
实验结果如上图所示，利用联合子空间嵌入重建的图像与给定的查询图像相似度较高。本文提出的基于 GAN 的菜谱检索模型的性能在当时获得了最优的性能。

在这里插入图片描述
我们在 ACM MM 2020 发表的论文「Cross-domain cross modal food transfer」中讨论了跨模态菜谱检索任务下的跨域食物迁移问题。例如，将在川菜数据集上训练的模型迁移到粤菜检索任务上。

在这里插入图片描述
为了实现跨域食物迁移，我们采用了对抗迁移机制，引入了域判别器来判断学习到的嵌入究竟来自图像还是菜谱文本的域，从而让模型学习到与数据域无关的食物原始特征，弱化与数据域相关的特征。

在这里插入图片描述
实验结果表明，相较于不存在 domain gap 的情况，跨域菜谱检索模型的性能仍然有所下降。或许可以尝试借助大规模预训练模型等新方法学习到更加通用的跨模态特征，提升跨域菜谱检索的性能。

本文介绍了基于识别的菜谱检索、基于跨模态学习的菜谱检索、跨域食物迁移等方面的相关工作。早期的基于识别的菜谱检索要求我们显式的标注食材，需要耗费大量的人力标注成本，难以处理无法在图片中观察到的食材原料和被遮挡的食材原料。基于跨模态学习的菜谱检索方法能够更好地扩展到大规模集上，需要的标注工作更少，可以得到更好的检索性能。未来，针对跨模态菜谱检索任务，我们期望进一步研究零样本的菜谱检索，使模型学习到泛化性更强的鲁棒特征，在无需在目标域上进行训练的情况下，直接将在源域上训练的模型应用于目标域。此外，我们还将尝试在菜谱数据上进行有针对性的大规模跨模态预训练。在食物计算领域中，如何有创造性地生成新的菜谱、如何根据输入菜谱生成相应的图像、如何估计食物的卡路里都是十分具有前景的研究方向。

在「跨模态菜谱检索」任务中，给定一张菜品的图像作为模型的输入查询，模型需要检索出制作该菜品相应的菜谱，我们可以将该过程建模为「视觉-文本」的翻译。这项技术可以帮助我们进一步完成实物识别、营养成分估计、菜谱推荐等下游任务。从技术角度来说，「跨模态菜谱检索」任务要求我们首先识别菜品，再将输入图像与菜谱文本关联起来，并且针对结构化的菜谱文本学习高质量表征。因此，该任务涉及到图像识别与理解、跨模态学习、菜谱文本建模等研究领域。本文介绍了基于识别的菜谱检索、基于跨模态学习的菜谱检索、跨域食物迁移等方面的相关工作。

文献下载地址：CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval| Proceedings of the AAAI Conference on Artificial Intelligence 2021AAAI中国计算机学会CCF的A类国际学术会议尽管有大量的多模态数据，例如图像-文本对，但在理解单个实体及其在这些数据实例的构建中的不同角色方面几乎没有努力。在这项工作中，我...

研究图像特征检测已经有一段时间了，图像特征检测的方法很多，又加上各种算法的变形，所以难以在短时间内全面的了解，只是对主流的特征检测算法的原理进行了学习。总体来说，图像特征可以包括颜色特征、纹理特等、形状特征以及局部特征点等。其中局部特点具有很好的稳定性，不容易受外界环境的干扰，本篇文章也是对这方面知识的一个总结。本篇文章现在(2015/1/30)只是以初稿的形式，列出了主体的框架，后面还有许多...

一、Faster-RCNN目标检测算法的介绍 Faster-RCNN 算法由于其较高的检测准确率成为主流的目标检测算法之一，相比较 YOLO系列算法，Faster-RCNN 速度方面略显不足，平均检测精度（mAP）很高，它将 region proposal 提取和 Fast-RCNN 部分融合进了一个网络模型 (区域生成网络 RPN 层)。算法大概可以分为特征提取层，区域建议层（RPN），ROIpooling（池化）层，分类与回归四个部分。具体执行步骤如下： (1)首先利用特征提取网络对输入进行特征提取

笔者前两年对接过一些大厂的菜品识别 SDK，后经过大量测试，发现跟实际应用中还是存在一些差距，后来通过新的算法实现了AI 图像识别 自动化收银系统（以下简称AI收银系统）的商业产品规模化，并陆续落地了一些项目。该AI收银系统采用C#语言开发，并基于WPF客户端应用框架，进行了一系列 图像识别 相关的技术应用，经过反复调试和测试，性能已达到最佳，能7x24小时保持正常工作状态。菜品识别关键接口调用代码：将摄像头传入的视频帧经过base64转换后发送到识别算法服务器，识别算法拿到图片后首先提取菜品特征，再

LCR食谱检索数据集是一个包含大量食谱信息的数据集，可以用于开发食谱检索系统和进行食谱相关的研究。这个数据集中包含了各种不同类型的食谱，如早餐、午餐、晚餐、甜点等，以及各种菜系的食谱，如中餐、西餐、日餐等。每个食谱的数据项包括食谱名称、食材、调料、制作步骤等信息。使用LCR食谱检索数据集可以有很多应用。首先，我们可以使用该数据集来开发一个食谱搜索引擎，用户可以根据自己的需求输入关键词，搜索符合条件的食谱。比如，用户可以输入“蔬菜沙拉”，系统将返回所有包含蔬菜沙拉的食谱。此外，该数据集还可以用于进行食谱相关的研究。研究人员可以利用数据集中的食材和食谱信息，分析人们的饮食习惯和偏好，以及不同菜系的特点。这些研究成果有助于我们了解人们的饮食文化，并为制定健康饮食方案提供科学依据。总之，LCR食谱检索数据集是一个丰富的食谱信息资源，可以在食谱检索系统开发和食谱研究中发挥重要作用。通过利用这个数据集，我们可以方便地搜索到适合自己口味和需求的美食。