Bi-CNN
细粒度的分类问题,fine-grained image classification,如花的品种识别,十分困难。
一种解决方法称为 part-based,是定位特征区域,如花瓣,然后用 CNN 分类,这种方法的缺点是标注成本高。
另一种解决方法 feature-based,是用鲁棒的特征:VLAD,Fisher + SIFT。这种方法不依赖训练数据,但是效果不如 part-based 方法。
Lin et. al. 提出的 Bi-CNN [1],克服以上两种方法的缺点,可以更好的解决细粒度分类问题。同时,这种结构和人类认知的 ventral stream (what pathway) & dorsal stream (where pathway) 相似。
实验中,B-CNN 效果比 FC-CNN 高出10% 左右。其中 w/ ft 表示识别 localization 后的图像。
找出最大化激活 filter 的图片区域,发现 B-CNN 能够学习到不同部位的特征,以完成 fine-grained 图像分类任务:
SCDA
DCGAN
Reference
[1] Lin, Tsung-Yu, Aruni RoyChowdhury, and Subhransu Maji. “Bilinear cnn models for fine-grained visual recognition.” Proceedings of the IEEE International Conference on Computer Vision. 2015. PDF