Towards Total Recall in Industrial Anomaly Detectionharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Roth_Towards_Total_Recall_in_Industrial_Anomaly_Detection_CVPR_2022_paper.pdf
出典:Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler: Towards Total Recall in Industrial Anomaly Detection, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14318-14328 (2022)
概要:本論文では位置情報を考慮した特徴量の集合和であるメモリバンクとCoresetによる画像パッチ特徴量の削減を行うPatchCoreアルゴリズムを提案する.結果として、異常検出のベンチマークであるMVTecにおいてAUROC99%以上の精度を出力し,2022年時点でのSoTAを記録した.また,PatchCoreによる特徴量削減により,学習のサンプル数を20%に減らした場合でも以前のSoTAに匹敵する精度となった.
This document summarizes recent advances in single image super-resolution (SISR) using deep learning methods. It discusses early SISR networks like SRCNN, VDSR and ESPCN. SRResNet is presented as a baseline method, incorporating residual blocks and pixel shuffle upsampling. SRGAN and EDSR are also introduced, with EDSR achieving state-of-the-art PSNR results. The relationship between reconstruction loss, perceptual quality and distortion is examined. While PSNR improves yearly, a perception-distortion tradeoff remains. Developments are ongoing to produce outputs that are both accurately restored and naturally perceived.
GPU の分析への応用などの基礎技術の進化とクラウドの爆発的な普及に伴い、だれもが使いたいときに使いたい時だけ高性能なマシンリソースを使える時代が到来し、家電、スマホ、ビジネスアプリケーションなどありとあらゆるものに AI が搭載されているとうたわれ、一部のデータサイエンティストが担っていた高度な分析や深層学習のフレームワークもエンドユーザーで使いこなす人も少なくありません。
一方で、AI や深層学習という言葉が独り歩きし、まず AI 導入ありきでプロジェクトが始まり、目的が失われ頓挫するようなケースや、予測した結果についての妥当性について説明がつかず、結果がうまく利用できないようなケースも見られるようになってきました。
今回のセミナーでは、AI や高度な分析についての最新トレンドと、その使いどころについて、実際の事例や経験などを踏まえお伝えします。
2. Mobility Technologies Co., Ltd.2
1 About Me
Agenda
2 Kaggle and Open Images Challenge 2019
3 How to tackle Object Detection challenges
4 Schwert’s Solution
5 Take-Home Messages
7. Mobility Technologies Co., Ltd.
Val Data
7
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
隠れたtest dataで最も性能を発
揮できるようにするには?
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data
8. Mobility Technologies Co., Ltd.
Val Data
8
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
Val Data
Train Data
隠れたtest dataで最も性能を発
揮できるようにするには?
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data
9. Mobility Technologies Co., Ltd.
Val Data
9
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
Val Data
Train Data
Train Data
Val Data
隠れたtest dataで最も性能を発
揮できるようにするには?
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data
10. Mobility Technologies Co., Ltd.10
Open Images Dataset (v5)とは
Flickrから収集された900万枚の画像
・190万枚に1600万個、600クラスのbounding box アノテーション
・350クラスのセグメンテーションマスク
・329通りのrelationship
Open Imagesコンペの概要
kaggleサイト
https://www.kaggle.com/c/open-images-2019-object-detection/
open imagesサイト
https://storage.googleapis.com/openimages/web/challenge.html
22. Mobility Technologies Co., Ltd.22
ResNet50では学習できたぞ?
よし、ResNeXt101でやってみよう
ついでにRandomCropも入れてみよう
よくない例
model 1 (baseline)
new
feature
A
new
feature
B
model 2
独立なfeatureをひとつだけ追加(変化)させて実験することが大事。
Ablation Studyも同様
29. Mobility Technologies Co., Ltd.29
各featureがval、public LBにどの程度寄与しているかを可視化する
Ablation Study
Backbone Deformable
Convolutions
Parent
Expansion
Data Size val AP private LB
ResNeXt101 None Inference Time 4k per class 69.8 54.0
ResNeXt101 DCN v2 Inference Time 4k per class 72.2 (+2.4)
ResNeXt152 None Inference Time 4k per class 72.2 (+2.4)
ResNeXt152 None Inference Time 16k per class 72.4 (+2.6)
ResNeXt152 DCN v2 Inference Time 4k per class 73.2 (+3.4) 56.4 (best
single model)
ResNeXt152 None Training Time 4k per class 72.4 (+2.6)*
30. Mobility Technologies Co., Ltd.30
手法3:Enhanced (Voting) NMS [6]
Non-Maximum Suppression for Model Ensembling
多くのモデルの検出が重なっている場合scoreが高くなるようにする
31. Mobility Technologies Co., Ltd.31
結果
Backbone Deformable
Convolutions
Parent
Expansion
Data Size val AP private LB
ResNeXt152 DCN v2 Inference
Time
4k per class 73.2 (+3.4) 56.4 (best
single
model)
Ensemble of
8 models +
NMS tuned
60.23
13位相当
6位
37. Mobility Technologies Co., Ltd.37
[1] Hiroto Honda, “The 6th Place Solution for the Open Images 2019 Object Detection Track,”
presented at ICCVW 2019, https://hirotomusiker.github.io/files/schwert_open_images_6th_solution_v1.pdf
[2] Hiroto Honda, “6th place solution,” discussion in Open Images 2019 Object Detection Track,
https://www.kaggle.com/c/open-images-2019-object-detection/discussion/110953
[3] Hiroto Honda, “11th place solution,” discussion in Open Images 2019 Instance Segmentation
Track, https://www.kaggle.com/c/open-images-2019-instance-segmentation/discussion/111351
[4] kivajok, 1st place writeup, https://storage.googleapis.com/openimages/web/challenge.html
[5] Takuya Akiba et al., “PFDet: 2nd Place Solution to Open Images Challenge 2018 Object Detection
Track,” arXiv:1809.00778
[6] Yuan Gao et al., “Solution for Large-Scale Hierarchical Object Detection Datasets with Incomplete
Annotation and Data Imbalance,” arXiv:1810.06208
[7] Saining Xie et al., “Aggregated Residual Transformations for Deep Neural Networks,” CVPR 2017
[8] Xizhou Zhu et al., “Deformable ConvNets v2: More Deformable, Better Results,” CVPR 2019
[9] Tsung-Yi Lin et al., “Feature Pyramid Networks for Object Detection,” CVPR 2017
* All the photos used in this presentation were taken by Hiroto Honda
References