« 「米のうまいところに悪い人はあんまりいません」 | トップページ | 「かゆずし」 という食べ物 »

2011年12月 7日

日本語音声入力はここまで来たのか

iOS 5 には "Siri" という音声認識システムが搭載されていて、マイクに向かってしゃべるだけで、いろいろなリクエストに応えてくれる。例えば録音されている中から "Imagine" を聞かせてくれと言えば、ちゃんと Imagine が聞こえてくるし、"Wake me up at five tomorrow morning." と言えば、5時にアラームをセットしてくれる。(参照

FM トランスミッターを使って車の運転中に音楽を聴いていて、曲を変えたくなったときなど、画面をタッチしなくても、iPhone のマイクに向かってしゃべるだけでいいので、とても便利そうだ。

ただ、この Siri は今のところ、英語、ドイツ語、フランス語のみの対応で、日本語、中国語、韓国語、イタリア語、スペイン語には来年中に対応すると発表されている。私としては英語でもなんとかいけると思っているのだが、iPhone 4S 以後のハードウェアでないと対応していないので、私の iPhone 4 では、残念ながら使えない。

で、iPhone 5 に機種交換するまでのつなぎというわけでもないが、既存の音声認識アプリをインストールしてみた。iPhone のオンスクリーン・キーボードでは、テキスト入力が快速でできないというストレスがあるが、音声認識が使い物になるなら、メールを出す時や、出張先のホテルでのブログ更新などに使えるかもしれないと思ったのである。

導入したのは「音声認識メール クラウド」というアプリで、今は円高のおかげなのか 100円を切って 85円で購入できる。インストールして、どんなものか早速試してみた。サンプルとして使ったのは、私の昨日の記事の最初の部分である。こんなテキストだ。

庄内空港に、一部ではとても有名になった大きな看板がある。そこには 「庄内平野と生きる MAETA」 とある。地元の有力企業、前田製管の看板である (参照)。そしてその看板の下の方には、次のように書いてある。

「米のうまいところに悪い人はあんまりいません」

しゃべるスピードはあえてとくにゆっくりというわけはなく、ごく普通のスピードというか、私はやや早口なので、少しは早めだったかもしれない。なお途中の "MAETA" は 「エムエーイーティーエー」 と読んだ。カギ括弧や括弧は、「カギ括弧/カギ括弧閉じ」 「括弧/括弧閉じ」 と録音し、これらの部分はさらに早口っぽくなったと思う。

認識結果は次の通り。「これなら使える」 とみるか、「こんなんでは、まだまだ使い物にならない」とみるか、それは人によって評価の分かれるところだろう。

庄内空港に一部ではとても有名になった大きな看板がある。そこには「庄内平野と生きるmk 210」とある。地元の有力企業前田製菓の看板である(参照)。そしてその看板の下のほうには次のように書いてある。「米の米どころに悪い人はあんまりいません」

「エムエーイーティーエー」が「mk 210」になってしまったのは、意味不明(エムケー に・いち・れい」とでも聞こえたのかなあ)で、「前田製管」が「前田製菓」になったのは、変換ソフトがクラウドの中に、より有名な既存の固有名詞をデータとして持っていたからだろう。

かなり早口で録音したはずの「カギ括弧/カギ括弧閉じ」「括弧/括弧閉じ」がきちんと変換できていたのは満足だが、「米のうまいところ」が 「米の米どころ」になったのは、まったく意味不明だ。

とまあ、こんなような誤認識はあるが、私としては「これ、使えるかも」と思った。期待以上の精度とスピードである。日本語の音声入力もここまで来たのかと感心した。大分昔に試してみた何とかいうシステムは、まったく使い物にならなかったから、これはかなりの進歩である。

これをメールやブログ更新の下書きとして使い、要所要所を手入力で修正すれば、かなり楽に長文が入力できるだろう。もちろん、ごく短いテキストなら手入力の方が速いし、普通のキーボードさえあれば、私は音声入力より快速で入力できるから、常に iPhone に向かってぶつぶつ呟こうとは決して思わないが。

 

|

« 「米のうまいところに悪い人はあんまりいません」 | トップページ | 「かゆずし」 という食べ物 »

パソコン・インターネット」カテゴリの記事

コメント

「米のうまいところ」が「米の米どころ」は、つい(人間なので)「こめどころ」と読んでしまいますが、単にuを認識できず、tをdと誤認して、「うまいところ」→「まいどころ」になっているんでしょうね。

まさか「米のうまいところ」から意味を推論して「米どころ」(こめどころ)が出てきているわけではありますまい(笑)

投稿: 山辺響 | 2011年12月 7日 19:21

山辺響 さん:

>単にuを認識できず、tをdと誤認して、「うまいところ」→「まいどころ」になっているんでしょうね。

あ、そうか、なるほど。

>まさか「米のうまいところ」から意味を推論して「米どころ」(こめどころ)が出てきているわけではありますまい(笑)

いや、クラウドの中に貯えられたデータが影響しちゃったのかもしれないという気はしています。

前のパラグラフに出てきた 「庄内平野」 という単語が、強力に 「米どころ」 という単語をプッシュしちゃったんじゃないかと。

ご指摘の 「まいどころ」 との合わせ技でしょうかね。

何しろ、「庄内平野」 といえば米どころというのは、かなりインプットされているらしいです。(リンク参照)

https://tak-shonai.cocolog-nifty.com/crack/2008/05/yaho_0b0f.html

投稿: tak | 2011年12月 7日 19:46

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 日本語音声入力はここまで来たのか:

« 「米のうまいところに悪い人はあんまりいません」 | トップページ | 「かゆずし」 という食べ物 »