ビジョン勉強会に行ったけど正直ついていけなかった、けどログを残す
ちゃんとバックボーンを勉強する必要性を痛感して帰ってきた。 日常的に勉強をすることは、本当に大事だと思う。 さらに、正直3本目以降くらいから頭が回らなくなってしまった。。。 普段から頭を使う&食事をとって体調を用意することの必要性も痛感した。
Discriminant Optimization: Theory and Application to Point Cloud Registration
資料
メモ
- コスト関数を最小化するように座標変換を求めるのでなくて、特徴量から直接座標変換を求める
- その際に学習を行う(リッジ回帰)
- ICPよりロバスト
- DO(discriminant Optimization)の方が初期値によらず寄っている
- 学習だから仕方ないが、トレーニングのシーン次第に強く依存する気がする
- 処理速度はICPと同等かちょっと遅い
- 精度は圧倒的に良い
- ICPで特徴量を使って、外れ値や欠損点に対するロバスト性の工夫をしたときとの比較はわからない?
- 確かに、トラッキング(途中で見えなくなるときなど)に強そうだ
- (関連アルゴリズムで)SDMという方法もある
Learning Cross-modal Embeddings for Cooking Recipes and Food Images
資料
メモ
- 画像をみて、レシピを決める(Pic2Recipe)
- レシピをいれると、画像が出てくることも可能
- よくわかっていない
- joint embedding spaceで両方からアクセス可?
- このjpoint embedding spaceから、レシピや画像を決定するステップがわかっていない
- LSTM
- (VGG-16) and ResNet-50
- ResNetは最近本当によく聞く
- similarity lossで学習
- レシピと画像が同じが違うかで学習
- 2:8の、マッチデータ、ミスマッチデータ
- semantic regularization loss
- semantic regularization loss
- 同じカテゴリだったらロスを小さくする?
- 例えば、チーズバーガーとハンバーガーはロスが小さい?
- タイトルからカテゴリを推定
- 同じカテゴリだったらロスを小さくする?
- semantic regularization loss
- http;//wednesday.????
- word2vec math
- king - man + woman = queenみたいな(適当)
CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction
資料
メモ
- CNNを使ったSLAM
- LSD-SLAM ?
- 昔あったmono-slamのやつだろうか?
- 輝度勾配が大きいところを特徴としてもってくる
- キーフレームで准距離推定?
- CNNデプス推定
- MITの研究室で元からあった手法
- 絶対スケールがわかる
- こっちの方がコア技術の印象を受けた
- 概略
- End-to-Endではない
- orb-slam, lsd-slamについて
Universal adversarial perturbations
資料
メモ
- 今日のベストプレゼンはこれだと思う
- Deep Learningモデルをご認識させるような普遍的な摂動ノイズを発見
- 汎用的なノイズ(Universal)
- 識別境界への法線ベクトルが結構共通方向を向いている→もっと低次元化できるという見解は超面白い
- 聞いているのがやっとでメモしている時間がなかった
- 法線方向(境界への最短方向)を決めてくるところが肝
- SVMとかと関連があるのだろうか?
Realtime Multi-Person 2D Pose Estimation using Part Affinity Field
資料
メモ
- CPM (Convorutional Pose Machine)の他の信用できる情報を組み合わせ得る発想はちゃんと勉強する
- kinectのpose estimatinでも似た感じだったのだろうか?
- あれはrandom forestだっけ
A Point Set Generation Network for 3D Object Reconstruction from a Single Image
資料
メモ
- 1枚の画像から、Point Cloudの推定
- chamfer distanceとearth mover’s distance
- VAE(Variational Auto-Encoder)?
- Deconvとは…
- 非常に面白いけど、厳密なデータとして扱うには限界があるきがする。個人的には将来への発展性を感じた。 こういった漠然とした3D形状を認識するモデルを中間層にもって、分類に活かすのはもちろん類似度?まで考慮するみたいな。。。これはコップじゃないけどコップとして使用できるみたいな物体の本質を理解した上での応用みたいなことをしたくなるとこういった暗黙の推定がいる気がする。何言っているのが良くわからない。
Image Super-Resolution via Deep Recursive Residual Network
資料
メモ
- DRRN(Deep Recursive Residual Network)
- global residual learning
- resursive learnig
- ウェイトを共有
- 汎化能力が高くなる(使われるシーンが一つでないので発散しにくくなる)
- multi-path local residual learning
- パラメータは少ないけど結構複雑
- 工夫の一覧
- Data Augmentation
- データの水増し
- 1/3, 1/4をひとつのpathで渡している
- batch normalization
- pre-activation
- gradient clipping
- Local Residual Learning
- バッチイメージのストライドサイズが半分でなく、2/3
- 境界を敢えてまたぐようにする
- Data Augmentation
- GAN (Generative Adversarial Networks)を使うというのもあるらしい
Person Re-Identification in the wild Joint Detection and Identification Feature Learning for Person Search
資料
メモ
- Person Re-Identification(人物再同定)という問題
- 複数のカメラにまたがった人物推定
1本目は、datasetと性能のベースとなるデータを用意した、という話か
Joint Detection and Identification Feature Learning for Person Search
- End-to-Endのアルゴリズムも提唱している
- 「Faster R-CNN」という単語が今日何回か出てきている
- クラス分類ではなく類似度問題にすることで、mini batchに含まれる画像の人物だけで、lossが計算できる
- online instance matchingの方がsoftmaxよりも高精度
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Density Diversity
資料
メモ
- 従来法
- Octreeアプローチ
- ドロネー網(Graph cut)アプローチ
- 密度の違うPoint Cloudの統合、表面生成にチャレンジ
- TX2では、OpenCV3.3が動く
- メッシュをきるときも視点情報を使うというのはしっくりくる
- その最たる例が、距離画像
- 今更だけど、Graph-Cutはいい加減勉強しないといけないな