这篇文章是阅读《Deep Learning of Binary Hash Codes for Fast Image Retrieval》后的总结，该文章提出了一种利用CNN处理基于内容的图像检索的方法。

文章的重点

图像的binary hash code的生成方法
两阶段的检索方法——coarse-to-fine search strategy

1、基于内容的图像检索

1.1、基于内容的图像检索

　　基于内容的图像检索（Content-based Image Retrieval，CBIR）旨在通过对图像内容的分析搜索出相似的图像，其主要的工作有如下两点：

图像表示（image representation）
相似性度量（similarity measure）

1.2、基于CNN的图像内容提取

　　以AlexNet卷积神经网络为例，AlexNet的网络结构如下图所示：

　　将最终的4096维向量作为最终图像的特征向量。这样的向量是一些高维向量，不利于计算。

2、二进制哈希编码的深度学习方法

2.1、模型结构

　　模型结构如下图所示：

　　在文章中，作者指出，该模型主要有三个主要的部分：

在大规模的ImageNet数据集上进行有监督的预训练；
在目标数据集上对模型进行微调，同时增加隐含层；
接收query，提取query的hash编码，同时查找相似的图像。

2.2、对hash的二进制编码的学习

　　本人认为在上图中，F7与F8之间会存在一个隐层，这一点不影响对Latent Layer的构造。

　　如上所述，我们可以使用F7的结构作为图像的特征，但是这样的向量是一个高维的向量（4096维），这样的向量不利于计算。解决的方法有：降维（如PCA，Hash等方法）。通过Hash的方法构造出来的二进制的编码形式，可以利用hashing和Hamming距离计算相似度，那么能否通过模型学习到最好的Hash方法？

　　解决的方法是在F7和F8之间增加一个映射层（Latent Layer）H，那么如果两个图片生成的二进制编码相似，那么这两张图片也应该具有相同的标签。在H层的激活函数为Sigmoid函数。

2.3、检索

　　在深层的卷积神经网络中，浅层可以学习到局部的视觉表征，而深层可以捕获到适合识别的语义信息。

　　在检索阶段，作者采用了由粗到精的搜索策略（coarse-to-fine search strategy）：

首先从Latent layer中检索出一批相似的候选集

2.3.1、粗粒度检索

对于图像I，可以得到其Latent Layer的输出，记为Out(H)，用该输出作为图像的特征表示。为了能够得到二进制的形式，需要对上述的输出做如下的变换：

图书分类

高可靠系统构建指南：服务稳定性建设与技术债务治理

特色专题

帮助

论文阅读——利用Binary Hash Codes的深度图像检索

赵志勇

1、基于内容的图像检索

1.1、基于内容的图像检索

1.2、基于CNN的图像内容提取

2、二进制哈希编码的深度学习方法

2.1、模型结构

2.2、对hash的二进制编码的学习

2.3、检索

2.3.1、粗粒度检索

2.3.2、细粒度检索

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。

高可靠系统构建指南：服务稳定性建设与技术债务治理

论文阅读——利用Binary Hash Codes的深度图像检索

赵志勇

1、 基于内容的图像检索

1.1、基于内容的图像检索

1.2、基于CNN的图像内容提取

2、二进制哈希编码的深度学习方法

2.1、模型结构

2.2、对hash的二进制编码的学习

2.3、检索

2.3.1、粗粒度检索

2.3.2、细粒度检索

读者评论

相关博文

社区使用反馈专区

迎战“双12”！《Unity3D实战核心技术详解》独家预售开启！

请问“下载资源”这个版块在哪？找半天没找着。

1、基于内容的图像检索