物体検出コンペティションOpen Imagesに挑む

Mobility Technologies Co., Ltd.
物体検出コンペティション
Open Images に挑む
2020/6/12
株式会社Mobility Technologies 本多浩大

Mobility Technologies Co., Ltd.2
1 About Me
Agenda
2 Kaggle and Open Images Challenge 2019
3 How to tackle Object Detection challenges
4 Schwert’s Solution
5 Take-Home Messages

1 About Me

自己紹介
本多　浩大 (ひろと)
https://hirotomusiker.github.io/
kaggle name : Schwert
https://www.kaggle.com/hirotoschwert
‘Schwert’ = ドイツ語でsword
大手電機メーカー (イメージセンサR&D)
→ DeNA (コンピュータビジョン) →Mobility Technologies へ移籍

ブログ書いてます
https://medium.com/@hirotoschwert/digging-into-detectron-2-47b2e794fabd
mediumでObject Detectionや超解像に関するブログを書いています

2 Kaggle and Open Images Challenge

Val Data
7
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
隠れたtest dataで最も性能を発
揮できるようにするには？
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data

Val Data
8
Kaggleの進め方
Test data
Train Data
Val Data
Train Data
評価metrics

Val Data
9
Kaggleの進め方
Test data
Train Data
Val Data
Train Data
Train Data
Val Data
評価metrics

Open Images Dataset (v5)とは
Flickrから収集された900万枚の画像
・190万枚に1600万個、600クラスのbounding box アノテーション
・350クラスのセグメンテーションマスク
・329通りのrelationship
Open Imagesコンペの概要
kaggleサイト
https://www.kaggle.com/c/open-images-2019-object-detection/
open imagesサイト
https://storage.googleapis.com/openimages/web/challenge.html

学習アノテーションファイルが1GBある
画像データは500GBくらいある
Open Images Dataset : どのくらい巨大か

3 How to Tackle Object Detection
Challenges

Object Detection
- 画像から物体の位置とクラスを検出するタスク
- Deep Learningによって飛躍的に進歩した
- Faster R-CNN, YOLO, EfficientDetなどが有名

オススメできません！！
よし、Object Detectionをコーディングしてみよう

Object Detectorの構造

Object Detectorの構造
Backbone Network
Region Proposal
Network
ROI Head
100を超えるコンフィグパラメータが存在する。
論文の精度は絶妙なバランスのもとに成り立っている

YOLOv3 を本家darknetからpytorchに移植したときの話
weight初期化、loss定義、lr scheduleなどの詳細がクリティカルに精度に効くため、
精度(AP)を完全再現するのに数ヶ月を要した
https://github.com/DeNA/PyTorch_YOLOv3

どのくらいの精度再現ができていればよいか
Model Name AP
A: Faster R-CNN Res50 34.8
B: Faster R-CNN Res50 +
Feature Pyramid Network
36.7
C: RetinaNet (single-shot)
Res50 Feature Pyramid
Network + Focal Loss
35.7
NIPS’15
CVPR’17
ICCV’17
Bモデルの野良実装：AP=33.0　を選んだ場合、
2年前のAモデルの論文精度よりも性能が低いことになる

MMDetection (CUHK)　
https://github.com/open-mmlab/mmdetection
Detectron 2 (Facebook)
https://github.com/facebookresearch/detectron2
automl/efficientdet (Google)
https://github.com/google/automl/tree/master/efficientdet
tpu/models (Google)
https://github.com/tensorflow/tpu/tree/master/models/official
tfモデルのpytorch移植 (R. Wightman)
https://github.com/rwightman
信頼性の高いフレームワークの例
上記に限らず、著者が出している「本家実装」は信頼できる
Schwertは、Detectron2の前身であった
maskrcnn-benchmarkを使いました

20
1モデルの学習に1 GPU month 以上かかる
巨大データセットコンペでのアプローチの選び方
1month
気軽なtry & errorができない

１：昨年のsolution
２：CVPRなどのdetection論文
３：papers with codeなどの性能まとめサイト
をよく調査し、
「明らかにそれ単独でスコアが大きく上がっている」featureをピックアップする
巨大データセットコンペでのアプローチの選び方

ResNet50では学習できたぞ？
よし、ResNeXt101でやってみよう
ついでにRandomCropも入れてみよう
よくない例
model 1 (baseline)
new
feature
A
new
feature
B
model 2
独立なfeatureをひとつだけ追加(変化)させて実験することが大事。
Ablation Studyも同様

4 Schwert’s Solution

Schwertの結果：
Detection Track: 6th / 558 (Gold) [1] [2]
Segmentation Track: 11th / 193 (Silver) [3]
Relationship Track: 30th / 201 (Silver)
Open Images Competition (2019)の結果
# Team Name # of
members
score
1 MMfruit 5 0.65887
2 imagesearch 7 0.65337
3 Prisms 6 0.64214
4 PFDet 6 0.62221
5 Omni-Detection 3 0.60406
6 Schwert 1 (solo) 0.60231
7 Team 5 5 0.60210
8 pudae 1 (solo) 0.59727
kaggleデビュー戦でソロ金メダル獲得に成功！

mean Average Precision (mAP) at IoU > 0.5 (500クラスの平均)
ここから読み取れること
ポイント１：どんなレアなクラスの精度も対等に評価される
　　　　　　personクラスを含む画像数：25万枚
　　　　　　torchクラスを含む画像数： 18枚
ポイント２：IoU 0.5のみでの評価なので、厳密な位置精度は要求されない。
　　　　　　クラス分類が大事
評価指標

「明らかにそれ単独でスコアが大きく上がっている」feature
2018年の1-3位のsolution [4][5][6] から読み取った有望なfeatureの例：
・class balancing (3位、5ポイント以上↑)
・Ensemble (1位 / 3位、5ポイント以上↑)
・voting NMS (1位 / 3位)
・long cosine annealing (2位)
・parent class expansion
・ResNext 152 + SE (1, 2, 3位)
class balancingとmodel ensembleは必須と考えて実験、他は順次試していく

手法１：Class Balancing [1]
クラス毎にN (=4000)枚をランダムサンプリングする

手法２：複数モデルのアンサンブルパイプライン [1]
・ベースモデルはResNeXt152 [7] + Deformable Convnets v2 [8] + Feature Pyramid Network [9]
・学習データのseedをモデル毎に変え、異なるbackboneのモデルを学習。
・合計8モデルをアンサンブルし、後処理して最終出力とした
・
・
・

各featureがval、public LBにどの程度寄与しているかを可視化する
Ablation Study
Backbone Deformable
Convolutions
Parent
Expansion
Data Size val AP private LB
ResNeXt101 None Inference Time 4k per class 69.8 54.0
ResNeXt101 DCN v2 Inference Time 4k per class 72.2 (+2.4)
ResNeXt152 None Inference Time 4k per class 72.2 (+2.4)
ResNeXt152 None Inference Time 16k per class 72.4 (+2.6)
ResNeXt152 DCN v2 Inference Time 4k per class 73.2 (+3.4) 56.4 (best
single model)
ResNeXt152 None Training Time 4k per class 72.4 (+2.6)*

手法３：Enhanced (Voting) NMS [6]
Non-Maximum Suppression for Model Ensembling
多くのモデルの検出が重なっている場合scoreが高くなるようにする

結果
Backbone Deformable
Convolutions
Parent
Expansion
Data Size val AP private LB
ResNeXt152 DCN v2 Inference
Time
4k per class 73.2 (+3.4) 56.4 (best
single
model)
Ensemble of
8 models +
NMS tuned
60.23
13位相当
6位

Best Single Modelの可視化

detectionとsegmentationを独立に学習・推論するアプローチ (1位チームも同じ)
Segmentation Trackのアプローチ (11th place) [2]

5 Take-Home Messages

・Kaggleはコンピュータビジョン修行の場として理想的。世界のkagglerたちと直接
discussionもできる
・Cross Validationなど、Kaggleならではの技術もあるが、性能を泥臭く追求する点におい
ては研究論文とも共通している
・Object Detectionのコンペでは、論文精度を再現できているフレームワークを選択するこ
とが第一歩
・過去のコンペのトップ手法をよく理解すること。独立かつ確実に効く技術要素を選ぶ
Take-Home Messages

[1] Hiroto Honda, “The 6th Place Solution for the Open Images 2019 Object Detection Track,”
presented at ICCVW 2019, https://hirotomusiker.github.io/files/schwert_open_images_6th_solution_v1.pdf
[2] Hiroto Honda, “6th place solution,” discussion in Open Images 2019 Object Detection Track,
https://www.kaggle.com/c/open-images-2019-object-detection/discussion/110953
[3] Hiroto Honda, “11th place solution,” discussion in Open Images 2019 Instance Segmentation
Track, https://www.kaggle.com/c/open-images-2019-instance-segmentation/discussion/111351
[4] kivajok, 1st place writeup, https://storage.googleapis.com/openimages/web/challenge.html
[5] Takuya Akiba et al., “PFDet: 2nd Place Solution to Open Images Challenge 2018 Object Detection
Track,” arXiv:1809.00778
[6] Yuan Gao et al., “Solution for Large-Scale Hierarchical Object Detection Datasets with Incomplete
Annotation and Data Imbalance,” arXiv:1810.06208
[7] Saining Xie et al., “Aggregated Residual Transformations for Deep Neural Networks,” CVPR 2017
[8] Xizhou Zhu et al., “Deformable ConvNets v2: More Deformable, Better Results,” CVPR 2019
[9] Tsung-Yi Lin et al., “Feature Pyramid Networks for Object Detection,” CVPR 2017
* All the photos used in this presentation were taken by Hiroto Honda
References

文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
38

物体検出コンペティションOpen Imagesに挑む

More Related Content

What's hot

What's hot (20)

Similar to 物体検出コンペティションOpen Imagesに挑む

Similar to 物体検出コンペティションOpen Imagesに挑む (20)

Recently uploaded

Recently uploaded (9)

物体検出コンペティションOpen Imagesに挑む