
Appleは、音声モデルに関する素晴らしい研究の一環として、機械学習という難題に対し、非常に人間中心のアプローチを採用した新たな研究を発表しました。つまり、何が話されたかだけでなく、どのように話されたかを認識することです。そして、そのアクセシビリティへの影響は計り知れません。
論文では、研究者らは、明瞭度、荒々しさ、息苦しさ、ピッチの単調さなどの解釈可能な特性である音声品質ディメンション (VQD) と呼ばれるものを使用して音声を分析するためのフレームワークを紹介しています。
これらは、言語聴覚療法士が神経疾患や病気の影響を受けた声を評価する際に注目する特性と同じものです。そして現在、Appleはこれらも検出できるモデルの開発に取り組んでいます。
AIに聞くことと聴くことを教える
今日の音声モデルのほとんどは、主に健康的で典型的な声で学習されています。つまり、ユーザーの発声が異なると、モデルが機能不全に陥ったり、パフォーマンスが低下したりする傾向があります。これは明らかに、アクセシビリティにおける大きなギャップです。
Apple の研究者は、パーキンソン病、筋萎縮性側索硬化症 (ALS)、脳性麻痺の患者の音声を含む、注釈付きの非定型音声の大規模な公開データセットで軽量プローブ (既存の音声システムの上に構築されるシンプルな診断モデル) をトレーニングしました。
しかし、ここに落とし穴があります。彼らは、これらのモデルを使って話されている内容を書き写すのではなく、7 つのコア次元を使って声の響きを測定したのです。
- 明瞭度: スピーチがどれだけ理解しやすいか。
- 不正確な子音: 子音がどれだけ明確に発音されているか (例: 不明瞭な子音や不明瞭な子音)。
- 荒々しい声: 荒々しい、緊張した、またはしわがれた声質。
- 自然さ: 聞き手にとってスピーチがいかに典型的または流暢に聞こえるか。
- モノラウドネス:音量の変化がないこと(つまり、一定の音量で話すこと)。
- モノピッチ: ピッチの変化がないため、平坦またはロボットのような音色になります。
- 息切れ: 声帯が完全に閉じていないために生じることが多い、空気のような、またはささやくような声質。
簡単に言えば、彼らは機械に、単に話されている内容を記録するのではなく、「臨床医のように聞く」ことを教えたのです。
もう少し複雑な言い方をすると、Apple は 5 つのモデル (CLAP、HuBERT、HuBERT ASR、Raw-Net3、SpiCE) を使用してオーディオ機能を抽出し、それらの機能から音声品質の次元を予測するように軽量プローブをトレーニングしたということです。
最終的に、これらのプローブは特性とタスクに応じてパフォーマンスがわずかに変化したものの、ほとんどの次元で優れたパフォーマンスを発揮しました。
この研究の際立った特徴の一つは、モデルの出力が説明可能であることです。これはAIにおいてはまだ稀なことです。このシステムは、不可解な「信頼度スコア」やブラックボックス的な判断を提示するのではなく、特定の音声特性を指摘し、そこから特定の分類へと導くことができます。これは、臨床評価と診断において有意義な進歩につながる可能性があります。
アクセシビリティを超えて
興味深いことに、Appleは臨床音声だけに留まりませんでした。チームはRAVDESSと呼ばれるデータセットの感情的な音声でもモデルをテストしました。感情的な音声で学習させていないにもかかわらず、VQDモデルは直感的な予測も行いました。
たとえば、怒っている声は「単調さ」が低く、落ち着いた声はそれほど耳障りではないと評価され、悲しい声はより単調に聞こえました。
これにより、ユーザーの実際の言葉だけでなく、気分や心の状態を解釈して口調や話し方を調整できる、より親しみやすい Siri の実現につながる可能性がある。
完全な研究はarXivで閲覧可能です。
drapmeta.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。