An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

https://openreview.net/pdf?id=YicbFdNTTy ICLR2021向けのBlind SubmissionでOpen Review中の論文 Blind Submissionとは言うが, TPU v3と JFT-300Mを利用している時点でGのオーラが隠せていない論文ざっくり内容概要 imageを固定pxサイズに分割したパッチにvisual wordsとし、image全体をパッチのシーケンスとして、Transformerに入力するモデル(Vision Transofmer)を提案。このViTをJFT-300Mのような大規模データセットでpretrainすることで、downstream taskにおいてBigTransfer(ResNetベース)やEfficientNetより低い計算コスト(推論時スループット及び訓練時間の観点)で同等以上の精度が達成できることを確認した新規性完全にCNNを排除したシンプルなTransformerのアーキテクチャでCNNベースのモデルを超える精度が出たのは初 ViTにおいて、ImageNetではデータ数が足りないが大規模データセットによるpretrainによってCNNのような局所性やシフトインバリアントな特徴をアーキテクチャに組み込まなくても学習ができることを明らかにした点手法基本的にはSimpleなTransformer 固定のパッチサイズに画像を分割 Position Embeddingは固定ではなく学習ベース特徴的な点は以下の通りシーケンスの先頭にはClassトークンを入れる。 classトークンのネットワークの出力で画像ラベルを分類するSupervised Taskで学習をする(Masked LMのようなSelf-supervisedでの学習はしない) 解像度の異なる画像を入力とする際はパッチサイズは固定のまま、Position Encodingの値を線形補間で与える。 Conifgurationはこんな感じ入力を生の画像ではなくResNetをbackboneとしたFeatureMapを入力としたHybirdModelも実験実験 ImageNetやJFT-300Mを組み合わせた大規模データセットでモデルをpretrained BigTransfer(ResNet152x4)やNoisyStudent(EfficientNet-L2)とかと各種down stream taskで比較 Noisy Studentに匹敵する精度を達成しながら、Pretrainにかかる時間は他のモデルより大分抑えられている(とはいえこのTPUv3-days 2.5kってどんなパワーやねん) pretrainのデータセットのサイズを変化させながら比較 JFT-300M位までデータセットを拡張すればViTの効果が出てくる感 JFT-300Mでpretrainした場合のcomputation cost

Read full post

ADER: Adaptively Distilled Exemplar Replay towards Continual Learning for Session-based Recommendation

https://dl.acm.org/doi/abs/10.1145/3383313.3412218 ざっくり内容概要 Session based recommendation において、継続的に取得されるデータに対して、モデルの破壊的忘却を防ぎながら継続的に学習させ続ける continual learning の手法を提案した研究新規性 Session based recommendation における Continual Learning という課題設定手法モデルの破壊的忘却を防ぐために, 以下の 3 つの要素を導入過去の学習タイミングで取得できたデータの一部を replay する Exampler サンプルするデータ数は,クラス(ラベル)毎の出現率に比例して割当てサンプリングアルゴリズムは herding technique を使う(incremental learningとかではよく使うみたい？) クラス内の中心ベクトルに近いデータをサンプルする奴予測結果の変化に対して制約を設ける Distilation Loss の追加 Distilation Loss と通常の CE Loss の重みをデータサイズに合わせて adaptive に変化新規データDとExamplerのEの比 1step前と今回のアイテムカテゴリ数(ラベル数)の比有効性の検証ベースの Self Attentive Sequential Recomendation(SASrec) に対して上記手法を適応し、複数のデータセットで Drop Out などの破壊的忘却を防ぐ手法より高い効果があることを確認継続的学習ではなく、その時点で取得できる全データを利用して学習する手法雑感結構学習時にデータセットの期間ってどうしようかなみたいなのは悩みポイントの１つなので割と実用的な課題設定(さすがRecSys2020 の Best Short Paper)

Read full post