ビジョン勉強会に行ったけど正直ついていけなかった、けどログを残す

ちゃんとバックボーンを勉強する必要性を痛感して帰ってきた。日常的に勉強をすることは、本当に大事だと思う。さらに、正直３本目以降くらいから頭が回らなくなってしまった。。。普段から頭を使う＆食事をとって体調を用意することの必要性も痛感した。

Discriminant Optimization: Theory and Application to Point Cloud Registration

資料

メモ

コスト関数を最小化するように座標変換を求めるのでなくて、特徴量から直接座標変換を求める
- その際に学習を行う(リッジ回帰)
ICPよりロバスト
DO(discriminant Optimization)の方が初期値によらず寄っている
学習だから仕方ないが、トレーニングのシーン次第に強く依存する気がする
処理速度はICPと同等かちょっと遅い
精度は圧倒的に良い
- ICPで特徴量を使って、外れ値や欠損点に対するロバスト性の工夫をしたときとの比較はわからない？
確かに、トラッキング（途中で見えなくなるときなど）に強そうだ
（関連アルゴリズムで）SDMという方法もある

Learning Cross-modal Embeddings for Cooking Recipes and Food Images

資料

メモ

画像をみて、レシピを決める(Pic2Recipe)
- レシピをいれると、画像が出てくることも可能
よくわかっていない
joint embedding spaceで両方からアクセス可？
- このjpoint embedding spaceから、レシピや画像を決定するステップがわかっていない
LSTM
- わかるLSTM ～最近の動向と共に - Qiita
- LSTMネットワークの概要 - Qiita
(VGG-16) and ResNet-50
- ResNetは最近本当によく聞く
similarity lossで学習
- レシピと画像が同じが違うかで学習
- 2:8の、マッチデータ、ミスマッチデータ
semantic regularization loss
- semantic regularization loss
  - 同じカテゴリだったらロスを小さくする？
    - 例えば、チーズバーガーとハンバーガーはロスが小さい？
  - タイトルからカテゴリを推定
http;//wednesday.????
word2vec math
- king - man + woman = queenみたいな（適当）

CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction

資料

メモ

CNNを使ったSLAM
LSD-SLAM ?
- 昔あったmono-slamのやつだろうか？
- 輝度勾配が大きいところを特徴としてもってくる
- キーフレームで准距離推定？
CNNデプス推定
- MITの研究室で元からあった手法
- 絶対スケールがわかる
- こっちの方がコア技術の印象を受けた
概略
- depth推定(CNNを利用)
  - Depper Depth Prediction with Fully Convolutional Residual Networks
  - またResNet-50
- LSD-SLMAPのフレームワークで
  - depthの信用度情報を使って、うまくヒュージョン
End-to-Endではない
orb-slam, lsd-slamについて
- 趣味なし奴のメモ帳: ORB-SLAMの導入

Universal adversarial perturbations

資料

メモ

今日のベストプレゼンはこれだと思う
Deep Learningモデルをご認識させるような普遍的な摂動ノイズを発見
汎用的なノイズ(Universal)
識別境界への法線ベクトルが結構共通方向を向いている→もっと低次元化できるという見解は超面白い
聞いているのがやっとでメモしている時間がなかった
法線方向（境界への最短方向）を決めてくるところが肝
- SVMとかと関連があるのだろうか？

Realtime Multi-Person 2D Pose Estimation using Part Affinity Field

資料

メモ

CPM (Convorutional Pose Machine)の他の信用できる情報を組み合わせ得る発想はちゃんと勉強する
kinectのpose estimatinでも似た感じだったのだろうか？
- あれはrandom forestだっけ

A Point Set Generation Network for 3D Object Reconstruction from a Single Image

資料

メモ

1枚の画像から、Point Cloudの推定
chamfer distanceとearth mover’s distance
VAE(Variational Auto-Encoder)?
Deconvとは…
- ニューラルネットワークにおけるDeconvolution - Qiita
非常に面白いけど、厳密なデータとして扱うには限界があるきがする。個人的には将来への発展性を感じた。こういった漠然とした3D形状を認識するモデルを中間層にもって、分類に活かすのはもちろん類似度？まで考慮するみたいな。。。これはコップじゃないけどコップとして使用できるみたいな物体の本質を理解した上での応用みたいなことをしたくなるとこういった暗黙の推定がいる気がする。何言っているのが良くわからない。

Image Super-Resolution via Deep Recursive Residual Network

資料

論文

メモ

DRRN(Deep Recursive Residual Network)
global residual learning
resursive learnig
- ウェイトを共有
- 汎化能力が高くなる（使われるシーンが一つでないので発散しにくくなる）
multi-path local residual learning
パラメータは少ないけど結構複雑
工夫の一覧
- Data Augmentation
  - データの水増し
  - 1/3, 1/4をひとつのpathで渡している
- batch normalization
- pre-activation
- gradient clipping
- Local Residual Learning
- バッチイメージのストライドサイズが半分でなく、2/3
  - 境界を敢えてまたぐようにする
GAN (Generative Adversarial Networks)を使うというのもあるらしい
- https://www.slideshare.net/hamadakoichi/gan-training-techniques

Person Re-Identification in the wild Joint Detection and Identification Feature Learning for Person Search

資料

メモ

Person Re-Identification(人物再同定）という問題
- 複数のカメラにまたがった人物推定
1本目は、datasetと性能のベースとなるデータを用意した、という話か
Joint Detection and Identification Feature Learning for Person Search
- End-to-Endのアルゴリズムも提唱している
- 「Faster R-CNN」という単語が今日何回か出てきている
- クラス分類ではなく類似度問題にすることで、mini batchに含まれる画像の人物だけで、lossが計算できる
  - online instance matchingの方がsoftmaxよりも高精度

Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Density Diversity

資料

メモ

従来法
- Octreeアプローチ
- ドロネー網(Graph cut)アプローチ
密度の違うPoint Cloudの統合、表面生成にチャレンジ
TX2では、OpenCV3.3が動く
メッシュをきるときも視点情報を使うというのはしっくりくる
- その最たる例が、距離画像
今更だけど、Graph-Cutはいい加減勉強しないといけないな

ソフトウェアエンジニアの勉強ログ

興味があるのは、computer vision, three.js, python, 深層学習, emacs

ビジョン勉強会に行ったけど正直ついていけなかった、けどログを残す

Discriminant Optimization: Theory and Application to Point Cloud Registration

資料

メモ

Learning Cross-modal Embeddings for Cooking Recipes and Food Images

資料

メモ

CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction

資料

メモ

Universal adversarial perturbations

資料

メモ

Realtime Multi-Person 2D Pose Estimation using Part Affinity Field

資料

メモ

A Point Set Generation Network for 3D Object Reconstruction from a Single Image

資料

メモ

Image Super-Resolution via Deep Recursive Residual Network

資料

メモ

Person Re-Identification in the wild Joint Detection and Identification Feature Learning for Person Search

資料

メモ

Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Density Diversity

資料

メモ