Pepper / NAO の音声認識が劇的に向上、音声認識ソリューション

会話を期待されながら残念ながらいまいち会話が噛み合わない Pepper、問題の一つは音声認識にあります。スマートフォンに話しかけたりするのとは違ってマイクと話者との距離があったり、小さい頭の中に CPU やらそれを冷却するファンやらが集積されている中に埋め込まれたマイクは、構造上ノイズを拾いやすかったりと、音声認識の精度を上げることに一定の技術的、環境的ハードルがありました。 また Pepper が標準でアプリデベロッパーに提供する音声認識はあらかじめ登録したキーワードに対して聞いた言葉をマッチングさせる、キーワードベースの音声認識であり、登録したキーワード以外のことを発話されると会話はとかく破綻してしまいがちでした。 Pepper の兄貴分にあたる NAO も状況は同じで、Pepper よりさらに小さな頭にいろんなものが集積されている分、問題はより深刻でした。

どうにか NAO にもっと会話をさせたい。試行錯誤をしてきた中でかなりいい感じになってきたものがありこの場で紹介させてください。

どうですか? 音声認識の機能自体は私たちが開発したわけではなく、クラウドの音声認識を使っているのですが、ここへの音声の送信をライブで行っているところに工夫があります。 レスポンスも申し分なく、ノイズ耐性もかなり良いです。

現在この技術をサービス化してより多くの人に使ってもらえるよう開発中です!

近年の機械学習の進化により音声認識の分野は急速に精度が上がってきているようです。ロボットとの会話を考えたとき次に待っているのは、聞いたことに対してロボットがどう答えるか。 この分野はまだまだ未成熟で、これからかなという感じです。 
まずは色々なボットにつなげてみたり、AIや会話エンジンといっているものにつなげてみたい。 私たちもこれらの技術を持っているベンダーさんを探していますが、自薦、他薦、オススメありましたら情報をいただければと思います!

かつて HTMLというコンテンツ配信技術が生まれ、Web製作という職業が生まれたように、音声認識、音声合成の技術が成熟し、会話エンジンの仕組みがある程度整理されると、ロボットに会話を覚えさせる「ロボット会話職人」のような職業が生まれてくるのかな、そんな妄想をしてしまう今日この頃です。


「Pepper / NAO の音声認識が劇的に向上、音声認識ソリューション」への2件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です