こんにちは、ボイスサービス部の ymd (@y_am_a_da) です。 今回は私と、 Cookpad inc (UK) の Global CTO である miles (@tapster) が VOICE 22 に登壇をしてきたのでそのレポートです。
VOICE 22 とは
2018 年から開催されている世界的な対話型 AI *1に関するカンファレンスです。2021 年までで世界で 10 万人以上が参加しており、この界隈の中では非常に大きなカンファレンスであると言えます。 世界的な情勢もありここ数年はオンラインのみでの開催となっていましたが、今年は久しぶりにオンラインとオフライン混合での開催となっていました。
対話型 AI に関わるベンチャーの CEO や、音声ユーザーインターフェースのデザインに関わるデザイナー、対話型 AIを活用するサービスを開発するエンジニアなどが様々な観点から発表をしていました。
クックパッドは海外展開にも注力しており、世界 74 ヶ国 32 言語で展開をしています。私の所属するボイスサービス部でも複数の国でサービスを展開しており、今回のイベントではそのサービスを運営して得られた知見をもとに音声対話型 AI やスマートスピーカーが料理のシーンをどのように変えられるのか、その可能性について "Introduce VUI to Make Everyday Cooking Fun"というタイトルで発表をいたしました。
登壇資料はこちらになります。
参加者について
今回登壇やブースを出展していた企業は大まかに 2 種類に分類することができました。
- 対話型 AI を簡単に導入できるサービス
- 音声コンテンツを生成するサービス
また、登壇者以外の来場者の層は、私達と同じようにスマートスピーカーや対話型 AI 向けにサービスを提供している開発者であったり、他にも対話型 AI のプラットフォーマー、対話的 AI の導入を検討している企業など様々でした。 全体的に、いわゆる開発者向けのカンファレンスではなく、もう少し幅広い対象を意識したイベントとなっていました。
登壇やブース出展していた企業を上記の分類ごとにもう少し詳しく紹介していきたいと思います。
対話型 AI を簡単に導入できるサービス
いわゆる Alexa や Google Assistant のような対話型 AI を導入できるサービスです。ここでの導入先は例えばコールセンターのオペレーター、レストランなどの予約受付システム、銀行の窓口業務などがあたります。 すなわち、人間が仕事でやっているコミュニケーションのうち、機械に任せられるところは機械に任せようというのを目標としたサービスです。
コミュニケーションにかかる人件費の削減や効率性を主に押し出していますが、それだけではなく、ユーザーとのコミュニケーションをデータとして可視化、分析できるようなダッシュボードを用意し、ユーザーとのコミュニケーションを改善するためのツールを提供しているようなところも多々ありました。 また、エンジニア向けの API の提供はしているものの、全体的に作り込まれたノーコードでの制作ツールを提供していることが多く、そのことからもエンジニアを抱えていない企業を強くターゲットとして意識している印象でした。
音声コンテンツを生成するサービス
いわゆる Text-to-Speech と呼ばれる技術を用いてテキストから発話データを生成するサービスです。ただ読み上げデータを作るだけではなく、多言語翻訳であったり声質の変換だったりにも対応しているサービスもありました。また、テキストだけではなく発話を入力にすることも可能なサービスもありました。
主な利用シーンとしては、 Podcast やスポーツの実況、動画コンテンツなどにつける注釈のようなものを想定しているようでした。例えば、ブログを文章で書けばそれをそのまま Podcast のコンテンツにも流用できる。というような具合です。 日本でも以前から類似のサービスはありますが、例えば Podcast のコンテンツを生成した音声で制作する発想はなかったのでそういったユースケースの話には新鮮さを感じました。
終わりに
今回登壇していた企業を見るとほとんどがいわゆるモバイルアプリケーションなどの延長線上ではなく、労働力の置き換え手段として音声アシスタントやその周辺技術を捉えている雰囲気を感じました。おそらくマーケットの大きさやマネタイズポイントのわかりやすさからそういったサービスが現状では大きく成長をしているのだと考えられます。自分自身はアプリケーションの延長線上として捉えている部分が大きかったため良い刺激になりました。
また、登壇者ではなく来場者の方には私達と同じように音声アシスタントプラットフォーム上に向けたサービスを開発している方も多く、ネットワーキングの時間で色々と情報を交換できてそちらも非常に有意義な時間となりました。
今回まとめた中には含まれませんでしたが、他にもいくつか面白い発表があったのでここでまとめて紹介します。
- コロナ禍により対話型 AI の利用者数はかなり伸びたという話
- 感染症予防の対策により非接触型のニーズが高まり、窓口に行って話をするのではなく、モバイルデバイスからチャットボットや音声アシスタントとやり取りをすることを好むユーザーが増えたとのこと
- 車内でのインタラクティブな音声広告の話
- いわゆる Voice Advertising と呼ばれるインタラクティブな音声広告がここ数年で広まりつつありますが、それを車載の音声アシスタントに搭載した。という内容でした。今どのあたりを走行しているのか認識することができるので、例えば近所のスーパーで起きているセールを提案する。などが事例として紹介されていました。まだまだ成長途中のマーケットですが、既存の広告媒体と比較して非常に高いエンゲージメントを誇っており、説明では既存のデジタル広告の平均 CTR は 0.6 % であるものの、自社の広告はエンゲージメントが平均 12% であると発表していました。 *2
- Alexa を使った新たなデバイスなどの話
- 主に Alexa Inovators と呼ばれる方々の開発している製品についていくつか紹介がされていました。特に Labrador という製品が面白かったです。 Alexa で操作ができる自律走行可能なワゴンカートなのですが、専用のトレイを利用して簡単な荷物の積み下ろしに対応しており、日本の家屋にマッチするサイズ感かはさておき、日々の家事が大変な人にはとても便利そうに見えました。 *3
弊社ではこのように色々な技術スタックを持ったエンジニアが数多く在籍しております。絶賛エンジニア募集しておりますのでご興味ありましたらぜひこちらのサイトをご覧ください。
*1:音声アシスタントやチャットボットのようにテキストや発話での自然言語を使ってインタラクションが可能な AI を指しています。
*2:過去の記事ですが以下の記事にも書かれています techcrunch.com
*3:こちらに詳しいですwww.youtube.com