menu

AI、音声研究

AI

近年の計算機能力の飛躍的な向上により、大規模な計算を要する機械学習を様々な問題に当てはめることが可能となり、人工知能(AI)としての実用化が進んでいます。耳鼻咽喉科は聴覚、平衡覚(バランス)、嗅覚、味覚と多くの感覚器、つまり身体への入力情報を専門的に取り扱っており、AI、機械学習といった情報科学研究との親和性がとても高い領域です。例えば、我々が聴覚の研究において得た内耳の解剖学的、生理学的な知見を基に、信号処理や深層学習の新たな手法の開発を目指して研究を進めています。


音声

私たちのグループのもう一つの大きなテーマは「音声」です。音声の源は、呼気の流れが左右の声帯の隙間を通過する際に受動的におきる声帯振動によって生み出された、断続的な気流の圧力変動であり、これを喉頭原音と呼びます。この喉頭原音がのど、口、鼻・副鼻腔など(声道)の形態、性状に応じた共振特性により変化をうけ、様々な声の質や響きが生み出されています。音声にはこのように非常に多くの情報が一次元の時系列波形として埋め込まれているため、分析的に個々の情報を取り出すことは、実はとても難しい問題です。

我々耳鼻咽喉科医は、音声と病気の関係を調べるために、音声が生成される過程を詳しく研究してきました。AIを用いた解析ではこれまでと正反対の立場から、つまり生成されたデータのもつ情報をいかにうまく取り出すかという切り口で、音声を分析します。このことは見方を変えると、声をいかに聴きとるかという聴覚情報処理の問題ともとらえることができます。このような新しい手法により、声と病気に関係する様々な問題に取り組んでいます。

図:音声障害の学習により1D convolutional neural network上に形成されるフィルタバンク(Fujimura,J Voice,2020)

お問合せ先


藤村 真太郎

住所 〒606-8507 京都府京都市左京区聖護院川原町54京都大学大学院医学研究科 耳鼻咽喉科・頭頸部外科
FAX 075-751-7225