なぜ携帯電話の声はいつもの声と違って聞こえるのか?という話がありました。
携帯電話から聞こえる相手の声が、直接話す声と違って聞こえたことはありませんか?
なぜ、変わって聞こえるのか?
これについて、音響や音声に詳しい 堀内俊治 先生(KDDI総合研究所 先端技術研究所 XR部門 シニアエキスパート 博士)が説明していました。
この理由は、実は本当の声ではないから。
携帯電話の声は、話している声をもとに、機械がモノマネした声。
電話というのは、もともとは固定電話が主流。
固定電話を使って話す場合、本人の声を波形データにし、
電話線を通して、そのまま相手に届けている。
一方、携帯電話には、電話線がない。
そこで、声を電波にのせて届ける必要がある。
しかし、人の声の波形というのは複雑で、そのままだとデータ量がとても重い。
電波にのせて声を届けるのに、時間がかかっていては、スムーズに通話できない。
そこで、携帯電話は、データが軽く限りなく本人に近い合成音声。
モノマネした声を作って相手に届けている。
合成音声を作るために使われるのが、携帯電話の中に内蔵されている「音声コーデック」というプログラム。
携帯電話にはICチップが内蔵されていて、その中にある「音声コーデック」というプログラムが、声の波形データを分析。
音声コーデックの中には、いろいろなパターンの「声の大きさ」「のどの響き」「声帯の振動」が、入っていて、
それを組み合わせて、分析した声とそっくりな声を作っている。
しかし、声は、男性や女性、子供や大人など、一人一人、実に様々。
全ての声に対応できるのか?
よく使われているコーデックには、声の大きさ「約3億種類」、のどの響き「約70兆種類」、声帯の振動「約2000正種類」のレパートリーがある。
「正」という単位は、「0(ゼロ)」が40個つく。
この声の組み合わせは、約1億無量大数種類。
どんな声でも、真似できないことは、まずないという。
更に、音声コーデックは、今でも進化を続けているため、音のパターンは増え続けている。
しかし、似た声を作って送るだけでは、重いデータを飛ばすのと一緒なのではないか?
もちろん、合成音声の完成品をそのまま送ると、データは重い。
そこで、「番号」だけを送っている。
音声コーデックの中の「声の大きさ」「のどの響き」「声帯の振動」には、それぞれ番号がある。
まず、送り手が声を発すると、音声コーデックは、その声を分析し、
声帯の振動、のどの響き、声の大きさなどから、合成音声を作製する。
ここまでの時間が、わずか0.02秒。
そして、話した側の携帯電話から、番号のみが電波にのって飛んでいく。
番号が受け手の携帯電話に届くと、その番号をもとに合成音声を再び作り出し、
声として耳に届けられている。
このように、機械が似た声を探して作っているので、本人の声と違って聞こえる。
ちなみに・・・
アプリ通話・リモート通話は、携帯電話向け(音声)コーデックを使用していない。
波形データをそのまま送ることが多いので、いつもの声に近い。