Amazon Pollyを試してみた

この記事は、はてなエンジニア Advent Calendar 2017の4日目の記事です。 昨日は、id:Songmu さんによる「go-memcached-toolを書いていた | おそらくはそれさえも平凡な日々」でした。

前置き

数年前からPodcast的サービスに関心があり、はてなでも何かできないかなと個人的に可能性を探っています。
スマホで社員インタビューやひとり語りなどを録音して、社内向けに作ったPodcastサービスで配信したりもしてみました。
フロントエンドランチの初期の頃は、このサービスを使って、公開前に確認したりしていました

その流れで、Text to Speech や Speech to Text のAPIにも注目している昨今です。
今回は、AWSが提供するText to SpeechのAPIAmazon Pollyを触ってみました。

Amazon Pollyとは

AWSが提供するText to SpeechのAPIです。
テキストをインプットするといい感じで音声ファイルを返してくれます。日本の使用例として、コミュニティFMがDJを雇わずにこのAPIで生成された音声で放送をしている例があります。

仕様

AWSのコンソールからAmazon Pollyにアクセスすると下記のような画面になります。コマンドラインで実行する方法もありますが、今回はコンソール画面から操作します。
下記画面に、音声に変換したいテキストを入力して「音声を聴く」をクリックすると、すぐに音声に変換してくれます。その下の「MP3のダウンロード」をクリックすると、その音声ファイルがダウンロードできます。


f:id:chris4403:20171204200923p:plain



日本語や英語をはじめ、10言語以上が対応しており、ひとつの言語につき複数の音声が用意されています。日本語はMizuki(女性)とTakumi(男性)の音声が用意されています。英語だと女性5タイプ、男性3タイプと8タイプの音声が用意されています。

今のところ1回の生成で複数の音声を混ぜることはできなさそう。なので女性と男性が会話する、みたいな音声ファイルを作りたいときは工夫が必要です。


変換にかかるコストは格安。AWS的には安く生成したファイルを大量に配信してもらって、そちらの方でたくさんお金を使ってもらいましょうという雰囲気のようですね。

一度に変換できる文字数には制限があり、1500文字まで。これが多いようで結構少なく、がっつり聴かせるテキストを変換しようとすると文字数オーバーになってしまいます。1500文字以上のテキストを変換したいときは、文章の区切りの良いところで2つに分け、2回に分けてmp3ファイルを生成し、結合する必要があります。試しに雑にcatコマンドで結合してみましたが、普通に聴くことができました(が、ファイル的には変なことになっていると思います)。

さて、プレーンなテキストを雑に変換するだけでも、だいぶ聴けるファイルが出来上がりますが、SSMLを使って細かく指定することで、きちんとした読み方で読ませたり、読むスピードや声の高さなどを変更することができます。

試しに以下のSSMLを変換してみました。

<speak> こんにちは、私です。
今日はSSMLの実験を色々としてみます。
エイリアスの実験です。
宇宙と書いて<sub alias="そら">宇宙</sub>と読みます。
1秒、<sub alias="ま"></sub>を取ります。
<break time="1s"/>
500ミリ秒あけます
<break time="500ms"/>
ヒソヒソ声を試します。
<amazon:effect name="whispered">ひそひそ話ですよー。ウィスパーボイスになっていますか?</amazon:effect>
<prosody volume="loud">大きな声を試します。<amazon:effect name="drc">ここからは移動中の車の中でもわかるようになる</amazon:effect></prosody>
rateを試します。
x-slow
<prosody rate="x-slow">むかしむかしあるところに、おじいさんとおばあさんがいました</prosody>
slow
<prosody rate="slow">むかしむかしあるところに、おじいさんとおばあさんがいました</prosody>
medium
<prosody rate="medium">むかしむかしあるところに、おじいさんとおばあさんがいました</prosody>
fast
<prosody rate="fast">むかしむかしあるところに、おじいさんとおばあさんがいました</prosody>
x-fast
<prosody rate="x-fast">むかしむかしあるところに、おじいさんとおばあさんがいました</prosody>
pitchを変えます。
x-low
<prosody pitch="x-low">おじいさんはやまへ芝刈りに、おばあさんは川へ洗濯に行きました</prosody>
low
<prosody pitch="low">おじいさんはやまへ芝刈りに、おばあさんは川へ洗濯に行きました</prosody>
medium
<prosody pitch="medium">おじいさんはやまへ芝刈りに、おばあさんは川へ洗濯に行きました</prosody>
hight
<prosody pitch="high">おじいさんはやまへ芝刈りに、おばあさんは川へ洗濯に行きました</prosody>
x-high
<prosody pitch="x-high">おじいさんはやまへ芝刈りに、おばあさんは川へ洗濯に行きました</prosody>
</speak>


実際に変換したファイルはこちら

指定するのは手間がかかりますが、手間をかければラジオのDJのような芸の細かい放送も作ることが可能そうです。

今後

先日のre:Invent 2017では、Speech to Textのサービス「Amazon Transcribe」が発表されました。リリース時点では日本語には未対応のようです。Google Homeなどのスマートスピーカーが広がることで、テキストでも映像でもない、音声のサービスがこれまで以上に注目されると思いますので、この領域は今後も注目したいと思います。

Raspberry PiのケースをLEGOで作ってみた

Raspberry Piはむき出しの基板なので、色々とケースが売っている。売っているけど、レゴでケースを作ってみるのもなかなかしゃれてそうなので、チャレンジしてみました。Googleのサーバーも最初はレゴでケース作っていたって言うしね!

どのパーツがどのくらい必要か分からなかったので、1000ピースの基本パックを買ってみた。

https://lh6.googleusercontent.com/-YV2wArruy3w/VPrpGR297RI/AAAAAAAASnA/KzB0ffLbfEY/w819-h615-no/P1120150.JPG
レゴ 10682 クリエイティブ・スーツケース


とりあえずケースを2つ作りました。
1つ目は面ごとに色を揃えてみたりしてちょっと凝ってる。真ん中の色味は信号機を意識した。

https://lh4.googleusercontent.com/-iPuAPOMk4ss/VPrpNP8Im3I/AAAAAAAASnY/JZtvXwdwcNs/w819-h615-no/P1120154.JPG


電源ランプのところには透明なLEGO使ってちゃんと見えるようにしてる。

https://lh4.googleusercontent.com/-Rfsxh1tIl_8/VPrpLoFSEQI/AAAAAAAASnQ/e-ZdQPKSYuk/w819-h615-no/P1120153.JPG


1つ目で良いパーツをたくさん使ってしまったので、2つ目は色がちぐはぐ。これはこれでレゴっぽい。

https://lh3.googleusercontent.com/-PgJN4l9e9vw/VPrpEQVGZWI/AAAAAAAASm4/3r6AsLX-1RI/w819-h615-no/P1120166.JPG


電源のところを透明にするのはできたけど、全体的にずんぐりむっくり感が増している。

https://lh6.googleusercontent.com/-O5Mgijn-F8I/VPrpCD26vsI/AAAAAAAASmo/2fShu6u1Djc/w819-h615-no/P1120164.JPG


今3つ目のケースをつくろうとしているけど、レゴブロック不足を感じている。細かいパーツや変速パーツはまだまだ沢山残っているのだけど、ベースを作るちゃんとしたブロックがすくないんだよね。

色の雰囲気や形を想像しながら作っていくので、レゴでケースを作るのは大変おすすめ。かわいいし、愛着わきます。

追伸

2号ケースは、席移動の際に落ちてしまって、大破しました。が、また簡単に組めるのがレゴの良いところ。時間を見つけてまた組み立ててみます。