なぜ携帯電話の声はいつもの声と違って聞こえるのか?:チコちゃんに叱られる!【2023/07/28】

なぜ携帯電話の声はいつもの声と違って聞こえるのか?という話がありました。

携帯電話から聞こえる相手の声が、直接話す声と違って聞こえたことはありませんか?

なぜ、変わって聞こえるのか?

これについて、音響や音声に詳しい 堀内俊治 先生(KDDI総合研究所 先端技術研究所 XR部門 シニアエキスパート 博士)が説明していました。

この理由は、実は本当の声ではないから。

携帯電話の声は、話している声をもとに、機械がモノマネした声。

電話というのは、もともとは固定電話が主流。

固定電話を使って話す場合、本人の声を波形データにし、

電話線を通して、そのまま相手に届けている。

一方、携帯電話には、電話線がない。

そこで、声を電波にのせて届ける必要がある。

しかし、人の声の波形というのは複雑で、そのままだとデータ量がとても重い。

電波にのせて声を届けるのに、時間がかかっていては、スムーズに通話できない。

そこで、携帯電話は、データが軽く限りなく本人に近い合成音声。

モノマネした声を作って相手に届けている。

合成音声を作るために使われるのが、携帯電話の中に内蔵されている「音声コーデック」というプログラム。

携帯電話にはICチップが内蔵されていて、その中にある「音声コーデック」というプログラムが、声の波形データを分析。

音声コーデックの中には、いろいろなパターンの「声の大きさ」「のどの響き」「声帯の振動」が、入っていて、

それを組み合わせて、分析した声とそっくりな声を作っている。

しかし、声は、男性や女性、子供や大人など、一人一人、実に様々。

全ての声に対応できるのか?

よく使われているコーデックには、声の大きさ「約3億種類」、のどの響き「約70兆種類」、声帯の振動「約2000正種類」のレパートリーがある。

「正」という単位は、「0(ゼロ)」が40個つく。

この声の組み合わせは、約1億無量大数種類。

どんな声でも、真似できないことは、まずないという。

更に、音声コーデックは、今でも進化を続けているため、音のパターンは増え続けている。

しかし、似た声を作って送るだけでは、重いデータを飛ばすのと一緒なのではないか?

もちろん、合成音声の完成品をそのまま送ると、データは重い。

そこで、「番号」だけを送っている。

音声コーデックの中の「声の大きさ」「のどの響き」「声帯の振動」には、それぞれ番号がある。

まず、送り手が声を発すると、音声コーデックは、その声を分析し、

声帯の振動、のどの響き、声の大きさなどから、合成音声を作製する。

ここまでの時間が、わずか0.02秒。

そして、話した側の携帯電話から、番号のみが電波にのって飛んでいく。

番号が受け手の携帯電話に届くと、その番号をもとに合成音声を再び作り出し、

声として耳に届けられている。

このように、機械が似た声を探して作っているので、本人の声と違って聞こえる。

ちなみに・・・

アプリ通話・リモート通話は、携帯電話向け(音声)コーデックを使用していない。

波形データをそのまま送ることが多いので、いつもの声に近い。