音声や画像などを入力とする認 識問題(例えば発話内容), の状況について解説する(図 1).
深層学習(ディープラーニング)は,多層(=ディープ) のニューラルネット(以降省略して「ディープネット」と記 す)を用いた機械学習の方法である.近年,音声認識,画 像認識,自然言語処理や製薬(化合物反応予測)など,い くつかの問題で,このディープネットを用いた方法がそれ 以前の方法を圧倒する性能を示し,研究開発は活況を呈し ている.本稿では,深層学習の今に至る研究の経緯と現在 の状況について解説する.筆者はコンピュータビジョンを 専門とするので,画像認識への応用を中心に述べるが,中 身は(画像応用で特異的に高い有用性を持つ畳込みネット を除けば)基本的に音声認識やその他の分野への応用にも 当てはまる. ディープネットがこのように成功している理由は,特徴 量を学習する能力にある.音声や画像などを入力とする認 識問題(例えば発話内容の認識や画像中の物体認識)は, 入力となる音声信号や画像から,まず認識対象を表現する 特徴を取り出すステップと,取り出した特徴を分類するス テップの二つに分けることができる(図 1).後半の分類の ステップは,サポートベクターマシンといった,90年代に 力強く発展した機械学習の方法を使うことで解決できる. 問題となるのは,入力からどのような特徴を抽出すればよ いかである. 実際,画像認識の分野では,これまでに,手書き数字の 認識や顔の検出・認識などの問題を解決してきた一方で,未 解決の問題(例えば画像 1枚からそこに写る物体の名前を 答える問題など)もまだ数多く存在している.これらが未 解決だったのは,何を特徴として抽出すべきかが不明だっ たためであると言える.過去,特徴抽出の処理は研究者が 手で設計するのが普通であり,それに成功した(性能が出 せた)問題は解決され,そうなっていないものが未解決な 問題として残されていたと言える.