Skip to content

Drapmeta

Menu
  • Watch
  • Mac
  • Vision
  • Airpods
  • Apps
Menu

Appleの最新AIモデルは、音声の「違和感」を検知するc

Appleの最新AIモデルは、音声の「違和感」を検知するc

Appleは、音声モデルに関する素晴らしい研究の一環として、機械学習という難題に対し、非常に人間中心のアプローチを採用した新たな研究を発表しました。つまり、何が話されたかだけでなく、どのように話されたかを認識することです。そして、そのアクセシビリティへの影響は計り知れません。

論文では、研究者らは、明瞭度、荒々しさ、息苦しさ、ピッチの単調さなどの解釈可能な特性である音声品質ディメンション (VQD) と呼ばれるものを使用して音声を分析するためのフレームワークを紹介しています。

これらは、言語聴覚療法士が神経疾患や病気の影響を受けた声を評価する際に注目する特性と同じものです。そして現在、Appleはこれらも検出できるモデルの開発に取り組んでいます。

AIに聞くことと聴くことを教える

今日の音声モデルのほとんどは、主に健康的で典型的な声で学習されています。つまり、ユーザーの発声が異なると、モデルが機能不全に陥ったり、パフォーマンスが低下したりする傾向があります。これは明らかに、アクセシビリティにおける大きなギャップです。

Apple の研究者は、パーキンソン病、筋萎縮性側索硬化症 (ALS)、脳性麻痺の患者の音声を含む、注釈付きの非定型音声の大規模な公開データセットで軽量プローブ (既存の音声システムの上に構築されるシンプルな診断モデル) をトレーニングしました。

しかし、ここに落とし穴があります。彼らは、これらのモデルを使って話されている内容を書き写すのではなく、7 つのコア次元を使って声の響きを測定したのです。

  • 明瞭度: スピーチがどれだけ理解しやすいか。
  • 不正確な子音: 子音がどれだけ明確に発音されているか (例: 不明瞭な子音や不明瞭な子音)。
  • 荒々しい声: 荒々しい、緊張した、またはしわがれた声質。
  • 自然さ: 聞き手にとってスピーチがいかに典型的または流暢に聞こえるか。
  • モノラウドネス:音量の変化がないこと(つまり、一定の音量で話すこと)。
  • モノピッチ: ピッチの変化がないため、平坦またはロボットのような音色になります。
  • 息切れ: 声帯が完全に閉じていないために生じることが多い、空気のような、またはささやくような声質。

簡単に言えば、彼らは機械に、単に話されている内容を記録するのではなく、「臨床医のように聞く」ことを教えたのです。

もう少し複雑な言い方をすると、Apple は 5 つのモデル (CLAP、HuBERT、HuBERT ASR、Raw-Net3、SpiCE) を使用してオーディオ機能を抽出し、それらの機能から音声品質の次元を予測するように軽量プローブをトレーニングしたということです。

最終的に、これらのプローブは特性とタスクに応じてパフォーマンスがわずかに変化したものの、ほとんどの次元で優れたパフォーマンスを発揮しました。

この研究の際立った特徴の一つは、モデルの出力が説明可能であることです。これはAIにおいてはまだ稀なことです。このシステムは、不可解な「信頼度スコア」やブラックボックス的な判断を提示するのではなく、特定の音声特性を指摘し、そこから特定の分類へと導くことができます。これは、臨床評価と診断において有意義な進歩につながる可能性があります。

アクセシビリティを超えて

興味深いことに、Appleは臨床音声だけに留まりませんでした。チームはRAVDESSと呼ばれるデータセットの感情的な音声でもモデルをテストしました。感情的な音声で学習させていないにもかかわらず、VQDモデルは直感的な予測も行いました。

たとえば、怒っている声は「単調さ」が低く、落ち着いた声はそれほど耳障りではないと評価され、悲しい声はより単調に聞こえました。

これにより、ユーザーの実際の言葉だけでなく、気分や心の状態を解釈して口調や話し方を調整できる、より親しみやすい Siri の実現につながる可能性がある。

完全な研究はarXivで閲覧可能です。

drapmeta.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。

Related Posts

グリーンピース、3年連続でアップルを世界で最も環境に優しいテクノロジー企業と認定c

グリーンピース、3年連続でアップルを世界で最も環境に優しいテクノロジー企業と認定c

9to5Rewards: MacStadiumのM1 Mac miniプレゼント企画への応募はまだ間に合います

9to5Rewards: MacStadiumのM1 Mac miniプレゼント企画への応募はまだ間に合います

MindNode アーカイブc

MindNode アーカイブc

CarPlayの「次世代」はすでに予想以上に優れているc

CarPlayの「次世代」はすでに予想以上に優れているc

You May Have Missed

9to5Rewards: MacStadiumのM1 Mac miniプレゼント企画への応募はまだ間に合います

9to5Rewards: MacStadiumのM1 Mac miniプレゼント企画への応募はまだ間に合います

Apple
iPhone 17 Airは120Hzディスプレイを搭載する可能性も、ProMotion機能は搭載されないc

iPhone 17 Airは120Hzディスプレイを搭載する可能性も、ProMotion機能は搭載されないc

Apple
CarPlayの「次世代」はすでに予想以上に優れているc

CarPlayの「次世代」はすでに予想以上に優れているc

Apple
アップル、カリフォルニア州での自動運転車テストを一部中止c

アップル、カリフォルニア州での自動運転車テストを一部中止c

Apple
©2025 Drapmeta
  • Watch
  • Mac
  • Vision
  • Airpods
  • Apps