こんにちは、ヤク学長です。
本日は、ニューヨーク大学のデータサイエンスセンターで2021年春に開講された、Yann LeCun教授とAlfredo Canziani教授による「ディープラーニング」の講義に焦点を当ててみたいと思います。
この講義はZoomを通じて週に一度、実践的なセッションも含めて提供され、その全ての教材がGitHubリポジトリで公開されています。講義内容は、基本的なニューラルネットワークの訓練から始まり、最先端のエネルギーベースモデルやグラフ変換ネットワーク、自己符号化器やGANsまで、幅広いテーマを網羅しています。
今回は、これらの講義が私たちの業界、特に医療と薬学にどのように応用可能か、具体的な事例を交えながら掘り下げていきます。未来の医療技術に一石を投じる可能性を秘めたこの講義に、どうぞご期待ください!
↓講義は以下からクリック
【本記事のもくじ】
Theme 9:その他
9-1 視覚のためのSSL
Self-supervised Learningとは
Self-supervised Learningは、ラベルの付与が困難であるデータセットを用いて学習を行う手法です。Ishan Misra氏は、主にコンピュータビジョンの分野における自己教師あり学習(Self-supervised Learning)のアプローチを説明しています。自己教師あり学習では、データセットの一部から別の部分の特徴を予測するタスクを設定し、その予測プロセスから特徴量を学習します。
ラベル付きデータの限界
従来の教師あり学習には大量のラベル付きデータが必要で、ラベル付けには膨大な労力とコストがかかります。例えば、ImageNetデータセットのラベル付けには22人年が費やされており、22,000種類のカテゴリをカバーしていますが、これは視覚世界に存在する概念のごく一部にすぎません。
Pretextタスク
コンピュータビジョンにおける自己教師あり学習の一つのアプローチとして「Pretextタスク」が挙げられます。Pretextタスクは、実際に解くことを目的とするタスクではなく、意味のある特徴量を学習するためのタスクです。代表的な例には以下があります。
- パッチの相対位置予測:画像内の2つのパッチ(領域)を使用し、それらの相対位置を予測するタスク。
- ジグソーパズル:画像を9つのパッチに分割し、それをランダムに並べ替えて、元の順序を予測するタスク。
- 画像の回転角度予測:画像を0度、90度、180度、270度に回転させ、その角度を予測するタスク。
Contrastive Learning
自己教師あり学習のもう一つの重要なアプローチがContrastive Learningです。Contrastive Learningでは、正例(ポジティブ)と負例(ネガティブ)を用いて、同じ画像の異なるバージョン(正例)を近づけ、異なる画像(負例)を遠ざけるように学習します。このアプローチにより、同一概念の画像が似た特徴量を持つように訓練されます。
クラスタリングベースの手法
Contrastive Learningに加え、クラスタリングベースの手法も存在します。これらの手法では、データをクラスタリングし、同じクラスタに属するデータが同様の特徴を持つように学習します。クラスタリングにより、データセット内の自然な構造を捉えることができます。
結論
講演では、自己教師あり学習が従来の教師あり学習に比べ、ラベルの少ないデータや異なるデータセットにも汎用性を持つことが強調されています。最終的に、自己教師あり学習は、ラベルのない大規模なデータを活用して、汎用的で強力な特徴表現を学習できる可能性が示唆されました。
感想
Ishan Misra氏による講演は、自己教師あり学習の現在のアプローチとその重要性を深く掘り下げたものでした。AIの進展に伴い、より少ないラベル付きデータで強力なモデルを構築することが今後ますます重要になっていくでしょう。読者の皆さんも、自己教師あり学習の可能性をさらに探求し、実際に試してみてください。
9-2 低リソース機械翻訳
概要
「12L」として知られる低リソース機械翻訳は、十分なデータがない場合でも効率的な機械翻訳システムを構築する技術です。これは、特にデータのスカース(不足)という課題に焦点を当て、少ないラベル付きデータでモデルを訓練する方法や、大規模なデータセットを活用してモデルの精度を高めるためのテクニックを扱っています。
この技術は、ニューラルネットワークの「トランスフォーマーモデル」を使用しており、教師なし学習、自己学習、そしてバイリンガルデータを用いる方法で、効率的な翻訳を実現しています。
低リソース機械翻訳の主な特徴
- 少ないラベル付きデータ: 低リソース言語では、英語やフランス語のような主要言語に比べ、十分な量の並列データが存在しません。このような場合、教師なし学習や自己学習を用いることで、翻訳精度を向上させます。
- 自己学習: 一度訓練した翻訳モデルを使って、ラベルなしデータを翻訳し、その翻訳結果を元に再訓練を行います。これにより、データの不足を補うことができます。
- バイリンガルデータの活用: 英語-ヒンディー語などの高リソースな言語ペアを活用し、低リソースな言語の翻訳精度を向上させることができます。
機械翻訳モデルの訓練方法
- データの準備: 英語とターゲット言語(例えばネパール語)の並列データを用意し、ニューラルネットワークモデルをトレーニングします。
- モデルの訓練: トランスフォーマーをベースにしたモデルで、確率最大化を目指してデータを学習させます。トークン単位で確率を計算し、各トークンが次にどのような単語になるかを予測します。
- ビームサーチを使用した生成: 翻訳時にはビームサーチを使用して、最も確率の高い翻訳を生成します。
モデルの最適化
- ラベルスムージング: 過学習を防ぐために、正しいラベルに対する確率をわずかに他のトークンにも分配する技術です。
- ドロップアウト: ランダムに一部の重みを無視することで、モデルの汎用性を高めます。
低リソース機械翻訳のチャレンジ
- データ不足: 並列データが不足している言語に対しては、教師なし学習や自己学習を駆使してデータを補完し、モデルの精度を向上させます。
- ドメインの違い: 訓練データとテストデータのドメイン(文脈)が異なる場合、性能が大きく低下することがあります。この問題を克服するためには、ファインチューニングやデータ拡張技術が重要です。
結論
低リソース機械翻訳は、限られたリソースの中で最大限の成果を引き出すための工夫が求められる分野です。教師なし学習や自己学習、そしてバイリンガルデータの活用が、データ不足の課題に対処するための有効な手法です。
感想
低リソース機械翻訳の世界は、言語間の違いを克服し、データが少ない場合でも高い精度で翻訳を行うための革新的な技術が満載です。この技術がさらに進化することで、より多くの言語間でのコミュニケーションが円滑になることが期待されます。
9-3 ラグランジュバックプロップ、最終プロジェクト、Q&A
最終授業の冒頭では、講師がその日の計画を説明します。
最初にヤン(恐らくYann LeCun氏)が「AIとディープラーニングの未来」について話し、その後、質疑応答セッションが続きます。質疑応答では、キャンパス内で学生が投稿した質問に対して答え、最後にトップ5のプロジェクトビデオの発表とコンペティションの勝者を発表します。
ヤンの講義では、ディープラーニングの再定式化として「ラグランジュの制約付き最適化」を使用し、バックプロパゲーションの新しい方法を紹介します。ラグランジュ最適化の基本的な概念や、その計算方法についても説明しています。
また、AIの未来についても言及し、自己教師あり学習(SSL)の重要性や、より統一されたアーキテクチャの可能性に触れています。AIの研究分野では、より大規模なネットワークを使ってさまざまなタスクを同時に解決する傾向が強まっており、特にビジョンや言語モデルの分野ではマルチタスク処理が主流になるだろうと述べています。
動画の後半では、質疑応答が行われ、ディープラーニングの研究における理論的な証明の重要性、業界と大学の研究の違い、特にロボット工学における物理的な制約を学習ベースの手法にどのように組み込むかについての質問が寄せられます。
最終的に、AIシステムの設計において予測モデルや強化学習、システム1(直感的な意思決定)とシステム2(計画的な意思決定)の役割などについて深く議論されています。
というわけで、今回は以上です。大変お疲れ様でした。
引き続きで、徐々に発信していきます。
コメントや感想を受け付けています。ちょっとした感想でもいいので嬉しいです。
それでは、以上です。