（论文阅读40-45）图像描述1

|----|------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 40.文献阅读笔记（m-RNN） |||
| 简介 | 题目 | Explain Images with Multimodal Recurrent Neural Networks |
| 简介 | 作者 | Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090 |
| 简介 | 原文链接 | http://arxiv.org/pdf/1410.1090.pdf |
| 简介 | 关键词 | m-RNN、multimodal |
| 简介 | 研究问题 | 研究问题：解释图像内容；图像和句子检索。以前的方法思路：看做句子和图像之间的检索问题。给定句子（图像）查询相应的图像（句子）。具体实施方法：对句子和图像都提取特征，并且将其映射到相同的语义嵌入空间。缺点：这样的方法对新图像的描述能力弱。（不在数据库中的句子、图像无法查询，或者查询结果不准确）针对这一任务，通常有两类方法。第一类假定有特定的语言语法规则。它们解析句子并将其分为几个部分。然后将每个部分与图像中的对象或属性关联起来（例如，使用条件随机场模型，使用马尔可夫随机场模型）。这类方法生成的句子在语法上是正确的。另一类方法与我们的方法更为相关，它们利用深度玻尔兹曼机和主题模型等，学习多模态输入（即句子和图像）空间的概率密度。与第一种方法相比，它们能生成结构更丰富、更灵活的句子。给定相应图像生成句子的概率可作为检索的亲和度指标。 |
| 简介 | 研究方法 | 多模态循环神经网络（m-RNN）：该模型直接模拟了在给定先前单词和图像的情况下生成单词的概率分布。图像描述就是从这个分布中采样生成的。该模型由两个子网络组成：用于句子的深度递归神经网络和用于图像的深度卷积网络。这两个子网络在多模态层中相互作用，形成整个 m-RNN 模型。 The whole m-RNN architecture contains a language model part, an image part and a multimodal part. The language model part learns the dense feature embedding for each word in the dictionary and stores the semantic temporal context in recurrent layers. The image part contains a deep Convulutional Neural Network (CNN) $17$ which extracts image features. The multimodal part connects the language model and the deep CNN together by a one-layer representation. 语言模型学习字典中每个词的稠密特征嵌入，并在recurrent layers中存储语义时间上下文（semantic temporal context）。图像部分包含提取图像特征的深度卷积神经网络( CNN )。多模态部分通过单层表示将语言模型和深度CNN连接在一起。损失函数：using a perplexity based cost function 1. RNN在每个时间帧中有六个层：输入词层、两个词嵌入层、递归层、多模态层和 softmax 层 |
| 简介 | 研究结论 | 模型优于最先进的生成方法。此外，m-RNN 模型还可应用于检索图像或句子的任务，与直接优化检索排序目标函数的先进方法相比，其性能有了显著提高。模型是可扩展的，并且有潜力通过为图像和句子整合更强大的深度网络来进一步改进。 |
| 简介 | 创新不足 | |
| 简介 | 额外知识 | 递归神经网络：【神经网络】递归神经网络 - 知乎 (zhihu.com) 模型必须能够按照树结构去处理信息，而不是序列（循环神经网络），这就是递归神经网络的作用。 |

|----|------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 43.文献阅读笔记 |||
| 简介 | 题目 | Show and Tell: A Neural Image Caption Generator |
| 简介 | 作者 | Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan |
| 简介 | 原文链接 | http://arxiv.org/pdf/1411.4555.pdf |
| 简介 | 关键词 | |
| 简介 | 研究问题 | 图像描述想回答诸如"数据集大小如何影响泛化"、"它将能够实现什么样的迁移学习"、"它将如何处理弱标记样本"等问题。 |
| 简介 | 研究方法 | CNN（图像的表示）+LSTM（联系前后输入）介绍了 NIC，这是一个端到端神经网络系统，可以自动查看图像并生成通俗易懂的合理描述。NIC 以卷积神经网络为基础，将图像编码为紧凑的表示形式，然后由递归神经网络生成相应的句子。对模型的训练是为了最大限度地提高给定图像的句子的可能性。利用一个循环神经网络将可变长度的输入编码为固定维度的向量，并使用这种表示将其"解码"到期望的输出句子。 |
| 简介 | 研究结论 | 随着图像描述可用数据集规模的扩大，NIC 等方法的性能也将随之提高。此外，如何利用来自图像和文本的无监督数据来改进图像描述方法也将是一个有趣的课题。 |
| 简介 | 创新不足 | |
| 简介 | 额外知识 | None |