1 2019/06/04(火) 13:21:24
左が本人
右が音声を元にAIが描写した人物画像

https://ai-scholar.tech/others/speech2face-159/
3 2019/06/04(火) 13:21:55
声から顔を予測するSpeech2faceモデルとは?

提案された「Speech2Face」は、”音声のみから顔を予測し、画像を自動生成”することができるモデルです。
発話と外観には相関関係があるといわれており、年齢、性別、口の形、顔の骨の構造など、すべてが音声に影響を与えると考えられています。また、言語、アクセント、スピードなどは国、地域、文化などのアイデンティティを反映しています。

これらの音と顔の相関関係をYoutubeなどの動画から人物が話している様子を”顔”と”声”に分けて学習データとし、声から正確に顔が予測できるようにモデルを訓練します。

話者の年齢、性別、人種などの複数の属性を短い話セグメントを通して推測し、その後話者の顔を再構築することができます。

例えば以下のような、一見関連がなさそうな音声データから外観を推測することが可能になります。
5 2019/06/04(火) 13:22:12
これまでも、音声データを元に性別や年齢などの人物を特定する研究や、音声を元に画像を生成する提案はいくつかありました。しかしそれらの多くは与えられた画像から適切なものを選び出すだけで、画像を生成するというアイデアは再現不可能でした。

“音声データのみ”を元に異なるデータ型である”顔の画像”を生成する研究は今回が初めてと言えます。

本モデルの重要なアイデアとして計算過程では、”顔全体を予測するための計算”を行う訳ではなく、下記のように”顔の各パーツの特徴量の相関係数を計算し再現する”ことで予測を行なっています。

これにより、顔の各パーツに特徴を精密に表現することができ、”似ている”人物像を作り上げることができます(パーツが似ている人を作るイメージ)。
11 2019/06/04(火) 13:23:10
>>1
凄すぎやろ
2 2019/06/04(火) 13:21:44
7 2019/06/04(火) 13:22:33
精度低い...
9 2019/06/04(火) 13:23:07
こんなんほぼ正解だろ
18 2019/06/04(火) 13:24:12
>>9
髪は予測できないぞ
髪は後付や
10 2019/06/04(火) 13:23:08
これって萌え声でも通用するんか
12 2019/06/04(火) 13:23:13
館山と石川でやってほしい
13 2019/06/04(火) 13:23:14
似てないやんけ
14 2019/06/04(火) 13:23:22
いや全然
17 2019/06/04(火) 13:23:48
すごい
21 2019/06/04(火) 13:24:26
髪型やメイクまでは見抜けんからな
この精度はヤバすぎる
22 2019/06/04(火) 13:24:30
山本浩二と池谷公二郎でやってほしい
23 2019/06/04(火) 13:24:37
すげぇ
26 2019/06/04(火) 13:25:15
凄いな
釘宮の声から釘宮の顔が生成されるのか試してほしいわ
30 2019/06/04(火) 13:25:59
サンプル白人に偏っていそう
32 2019/06/04(火) 13:26:15
ぜってー嘘だわ
似た声質で全然顔違うやつおるやろ
35 2019/06/04(火) 13:26:33
全くの別人で草
34 2019/06/04(火) 13:26:23
美形かどうか顔の系統は分かるな
Aiの動画一覧