Pricing

login
Home / Papers / On Deep Learning

On Deep Learning

2 Citations2015
Takayuki Okatani
Journal of the Robotics Society of Japan

音声や画像などを入力とする認 識問題(例えば発話内容), の状況について解説する(図 1).

Abstract

深層学習(ディープラーニング)は,多層(=ディープ) のニューラルネット(以降省略して「ディープネット」と記 す)を用いた機械学習の方法である.近年,音声認識,画 像認識,自然言語処理や製薬(化合物反応予測)など,い くつかの問題で,このディープネットを用いた方法がそれ 以前の方法を圧倒する性能を示し,研究開発は活況を呈し ている.本稿では,深層学習の今に至る研究の経緯と現在 の状況について解説する.筆者はコンピュータビジョンを 専門とするので,画像認識への応用を中心に述べるが,中 身は(画像応用で特異的に高い有用性を持つ畳込みネット を除けば)基本的に音声認識やその他の分野への応用にも 当てはまる. ディープネットがこのように成功している理由は,特徴 量を学習する能力にある.音声や画像などを入力とする認 識問題(例えば発話内容の認識や画像中の物体認識)は, 入力となる音声信号や画像から,まず認識対象を表現する 特徴を取り出すステップと,取り出した特徴を分類するス テップの二つに分けることができる(図 1).後半の分類の ステップは,サポートベクターマシンといった,90年代に 力強く発展した機械学習の方法を使うことで解決できる. 問題となるのは,入力からどのような特徴を抽出すればよ いかである. 実際,画像認識の分野では,これまでに,手書き数字の 認識や顔の検出・認識などの問題を解決してきた一方で,未 解決の問題(例えば画像 1枚からそこに写る物体の名前を 答える問題など)もまだ数多く存在している.これらが未 解決だったのは,何を特徴として抽出すべきかが不明だっ たためであると言える.過去,特徴抽出の処理は研究者が 手で設計するのが普通であり,それに成功した(性能が出 せた)問題は解決され,そうなっていないものが未解決な 問題として残されていたと言える.

Use the desktop version to access all features