ミッションたぶんPossible

どこにでもいるシステムエンジニアのなんでもない日記です。たぶん。

#AlexaDevSumiで聞いてきたAlexaのVoice UI実装に関するメモ

 先週開催されたAlexa Dev Summit Tokyo 2018に参加してきました。オレは今、音声認識技術を活用したシステムの開発案件に従事しています。もっとも、かつようしているのはAmazon Alexaじゃないんですが、同じNLUなんだから、対話設計を行ううえで何かしら参考になるんじゃないかな、と思ったのが参加したきっかけです。
 結局のところ2日間のイベント開催期間のうち、数セッションしか聴講できていないのですが、その中で対話設計に関する内容で個人的に印象に残ったものをメモしておきます。逆に言うと、今回話題の中心だったAPL(Alexa Presentation Language)とかサードパーティの開発支援ツールとかは全然メモ取ってません。あしからず。



  • VUI実装のポイント

f:id:takigawa401:20181217160449j:plain

    • 発声に変化をつける
    • 一息で話せる長さを意識
    • パーソナリティ(キャラクター付け)を明確にする
      • NHKアナウンサーみたいな喋り方は出来ない・向いてない
      • 友達感覚のライトな対話を意識
      • 自然・簡単・優しい、を意識
    • 質問(ユーザー発話を促すようなシステム発話)は必ず最後に
      • 書く文章と喋る文章は違う
      • Alexaに喋らせる前に、まずは自分で喋って音を聞いてみる
        • 人間の友達同士ならなんて言う?
    • 文章は短くする、それも徹底的に
    • 自由は発話の進め方

f:id:takigawa401:20181217160631j:plain

      • どの順番でも、一回でも良い

f:id:takigawa401:20181217160734j:plain

f:id:takigawa401:20181217160516j:plain

      • ストーリーボードを用いるのが効果的

f:id:takigawa401:20181217160547j:plain

    • 質問の仕方よるユーザーの方向付けを意識

f:id:takigawa401:20181217160758j:plain

    • 対話のステップも最小限に

f:id:takigawa401:20181217160822j:plain

      • シナリオよりはスクリプト(インタビュー想定対話のリスト)
      • スクリプトに書き出して可視化
        • 俯瞰し、最短化・最適化できないか何度も確認する

f:id:takigawa401:20181217160910j:plain

  • マルチモーダル
    • 音声
    • View・タッチ
      • 簡易的な画面をつけることも(FireTV, Echo Spot, Echo Show)
    • 音声ファースト
      • あくまで音声が主
        • 音声UIをキチンと設計することが重要
      • 音声で不足がある部分をViewで補う
      • 画面を使う事にこだわらない
    • バイスから遠くで(1m以上離れて)使う場合
      • 音声ですべての操作をサポート
      • ある程度遠くでも見えるようなGUI
    • バイスから近く(手を伸ばせば届く範囲)で使う場合
    • GUIよりはモーションデザイン
  • GUI
    • 目で情報を処理し、手で処理を実行
  • VUI(Voice User Interface)
    • 耳で情報を処理し、口で処理を実行
    • メリット
      • 自然
      • 早い
    • デメリット
      • 出来ることと出来ないことがハッキリしない
      • 頭の中で情報を処理する必要がある


 音声認識って、割と人間と同じように話せて受け答えが出来るところを、みんな目指したり思い描いていたりするんじゃないかと思うんです。以下のイメージ動画なんか、まんまそんな感じですよね。

www.youtube.com

 でも、今回いくつかのセッションを聞く限りでは、少なくともAmazonとAlexaはそれを目指してないし、目指していない理由として、そもそも音声認識・NLUが柔軟で人間らしい対話に不向きな技術要素なんじゃないか、と思えました。また、イメージ動画のような柔軟な会話は、確かにすごいと思うんですけど、実際単なるツールとして人間が使う場合にここまでのものが必要かな?と思えてならないです。介護とか心理療法的なものには有用だし目指すべき価値はあると思うんですが、家電やカーナビ、スマホを操作する程度であれば、もっと端的な命令形で問題無いような気がします。Voice UIで構築するシステムは、人間らしさとかは特に目指すべきではなく、あくまでボタンやスイッチを手でなく声で押すためのもの、であるべきなのかな、と思いました。


 Alexa Dev Summit Tokyo 2018の、ちゃんとしたレポートを読みたい人は、クラメソさんの大量のレポートをご参照ください。オレも今から読みます。
Alexa Dev Summit Tokyo 2018 | シリーズ | DevelopersIO