なぜ携帯電話の声はいつもの声と違って聞こえるのか？：チコちゃんに叱られる！【2023/07/28】

なぜ携帯電話の声はいつもの声と違って聞こえるのか？という話がありました。

携帯電話から聞こえる相手の声が、直接話す声と違って聞こえたことはありませんか？

なぜ、変わって聞こえるのか？

これについて、音響や音声に詳しい堀内俊治先生（KDDI総合研究所先端技術研究所 XR部門シニアエキスパート博士）が説明していました。

この理由は、実は本当の声ではないから。

携帯電話の声は、話している声をもとに、機械がモノマネした声。

電話というのは、もともとは固定電話が主流。

固定電話を使って話す場合、本人の声を波形データにし、

電話線を通して、そのまま相手に届けている。

一方、携帯電話には、電話線がない。

そこで、声を電波にのせて届ける必要がある。

しかし、人の声の波形というのは複雑で、そのままだとデータ量がとても重い。

電波にのせて声を届けるのに、時間がかかっていては、スムーズに通話できない。

そこで、携帯電話は、データが軽く限りなく本人に近い合成音声。

モノマネした声を作って相手に届けている。

合成音声を作るために使われるのが、携帯電話の中に内蔵されている「音声コーデック」というプログラム。

携帯電話にはICチップが内蔵されていて、その中にある「音声コーデック」というプログラムが、声の波形データを分析。

音声コーデックの中には、いろいろなパターンの「声の大きさ」「のどの響き」「声帯の振動」が、入っていて、

それを組み合わせて、分析した声とそっくりな声を作っている。

しかし、声は、男性や女性、子供や大人など、一人一人、実に様々。

全ての声に対応できるのか？

よく使われているコーデックには、声の大きさ「約３億種類」、のどの響き「約７０兆種類」、声帯の振動「約2000正種類」のレパートリーがある。

「正」という単位は、「０（ゼロ）」が４０個つく。

この声の組み合わせは、約１億無量大数種類。

どんな声でも、真似できないことは、まずないという。

更に、音声コーデックは、今でも進化を続けているため、音のパターンは増え続けている。

しかし、似た声を作って送るだけでは、重いデータを飛ばすのと一緒なのではないか？

もちろん、合成音声の完成品をそのまま送ると、データは重い。

そこで、「番号」だけを送っている。

音声コーデックの中の「声の大きさ」「のどの響き」「声帯の振動」には、それぞれ番号がある。

まず、送り手が声を発すると、音声コーデックは、その声を分析し、

声帯の振動、のどの響き、声の大きさなどから、合成音声を作製する。

ここまでの時間が、わずか0.02秒。

そして、話した側の携帯電話から、番号のみが電波にのって飛んでいく。

番号が受け手の携帯電話に届くと、その番号をもとに合成音声を再び作り出し、

声として耳に届けられている。

このように、機械が似た声を探して作っているので、本人の声と違って聞こえる。

ちなみに・・・

アプリ通話・リモート通話は、携帯電話向け（音声）コーデックを使用していない。

波形データをそのまま送ることが多いので、いつもの声に近い。