日常生活を改善するブログ

ガジェット体験や日常生活から得た気づきをシェアするブログ

【AWS】60分200円で文字おこし「Amazon Transcribe」をためしてみました!【いくら?変換精度は?】

お題「マイブーム」

AWSの文字おこしサービス「Amazon Transcribe」がいよいよ東京リージョンでローンチされました。

早速試してみましたので、

  • 「Amazon Transcribe」の料金
  • 「Amazon Transcribe」の使い方
  • 「Amazon Transcribe」を使ってみた結果
    ※特にGCPのSpeech to Textと比べてどうなのか?あたり

をシェアしていきます!

 ポッドキャストやインタビューの自己確認用にはつかえそう

Amazon Transcribeとは

AWSで提供している音声の文字おこしサービスです。

以前から英語圏では使えていましたが、2019年11月に日本語にも対応しました。

録音した音声ファイルをS3にアップロードして音声変換すれば、

AIが自動で文字おこしをしてくれます。

f:id:takemako:20191127153306p:plain

Amazon transcribeの画面

AmazonTranscribeの料金はどれくらい?

料金はさすがAWS安いです。

無料期間中は月間60分までは無料。

超過したら以下の金額がかかってきます。

1分辺り 0.024ドル

10分 0.24ドル

30分 0.72ドル

60分 1.48ドル

十分安いです。2時間の音源を文字おこしする場合でも200円かからないくらい。

これはGCPのSpceech to Textとちょっと安いくらいです。

人に頼む値段を考えたらタダみたいなものですね。

文字おこしするまでの方法

音声ファイル(mp3)をS3にアップロード

これも簡単です。GUIで終わりまで持っていけます。

まずは音声をS3にアップロード。

これはMP3ファイルで大丈夫です。

アップロードが終わったら「コピーパス」でクリックしてURLをコピーしておきます。

f:id:takemako:20191127153950p:plain

Amazon transcribeのページで変換処理を実行

あとはAmazon transcribeのページで、Create trancscription jobを作成します。

Nameは任意の名前、

LanguageをJapan、

InputdataにS3のURL、

Formatに音声ファイルの形式を指定。

f:id:takemako:20191127154330p:plain

あとはCreateすれば、文字おこしが開始されます。

Statusが「In progress」になればOK。

かかった時間は80分の音声ファイルでだいたい20分でした。

 

f:id:takemako:20191127154539p:plain

文字おこしファイルのダウンロード(JSON形式)

文字おこしが完了すると、JSON形式のファイルをダウンロードできるURLが払い出されます。それをクリックしてダウンロード。J

SONとはいいつつも変換結果がそのまま出力されるのでエディタでひらけば、結果をそのまま編集可能です。

f:id:takemako:20191127154712p:plain

文字おこしの結果は?

それでは実際に文字お越しした結果です。

最初のは手で文字おこしした文章、次にAmazon transcribeで起こした文章です。

内容はあるセミナーでのインタビューのセリフ。

音声を手でおこした文章

自分が出版業界入った時からもうちょっと右肩下がりだったので。広めるが入るんじゃないかなと思って。昔はもしかして広めるって意識しなくても広まってたのかもしんないですけど。多分それこそ自分がやってる方言だ意味ですかね。Web を使って広めるみたいなのも一つだし SNS とかもそうですし。川上から川下までもれたものをどうやってなんとか世の中送り出すまでを痛感してみるっての編集ではないか?

Amazon transcribeの文章

多分 これ は 自分 が こう 出版 業界 に 入っ た 時、 から もう ちょっと 右肩 下がり られる ので 広める が 入る ん じゃ ない か な と 思っ て あんまり その。 昔 は もしか し たら 広める って 意識 し なく て も 広がっ て た の。 かも しれ ない です けど ま 多分 これ こそ 自分 が やっ てる 方 現代 ミダスマネー 現代 みたい な ウェブ を 使っ て 広める みたい な の も 一つ だ し 洗練 す そう です し っていう その 本当 川上 から 川下 まで お ぎゃ って 言わ れ た もの を どう やっ て なんか 世の中 を 送り出す まで を 痛感 し て。 みる という の は 編集 で は ない か

どうでしょうか?

正直そのまま原稿に使えるレベルにはありませんが、自分でインタビューした音源を確認するようのスクリプトとしてなら利用価値ありなんじゃないかな?

と感じました。

  • 文節ごとに空白ができてしまう
  • 口語に弱い
  • 固有名詞はほとんどだめと

課題はありますが、確認用にはどうにか使えるレベルだと思います。

今後どんどん進化していくでしょうし。

1時間の音声で10,000円かかることを考えたらありがたい限りですよね。

GCPの「Speech to Text」と比べてどうなのか?

いかが同じファイルをGCPのSpeech to Textに読ませた結果です。

 

GCPのSpeech to Textの結果

自分が好出版業界入った時からもうちょっと右肩下がりだったので広めるが入るんじゃないかなと思って昔はもしかして広めるって意識しなくても広まってたのかもしんないですけど多分それこそ自分がやってる方言だ意味ですかねげん台みたいな Web を使って広めるみたいなのも一つだし SNS とかもそうですして言う村と川上から川下まで行ってもれたものをどうやってなんか世の中送り出すまでを痛感してみるっての編集ではないか

 

どうでしょうか。返還性ドアhGCPに一日の長がありますね。

口語や固有名詞もスムーズに翻訳してくれるのが解ると思います。改行や句読点もそろそろ対応すると言っていますし、本格的に使うならGCPのほうがいいと思います。

手軽に文字おこしを体験したいなら「Amazon Transcribe」がおすすめ

 

変換精度は高いですがGCPはコマンドラインが必須でとっつきにくいのは確か。

その点AWSのはGUIで全て完結できるのでとっつきやすさは断然上です。

手軽にAIによる文字おこしを体験したいのなら「Amazon Transcribe」はおすすめです。

ぜひトライしてみてください!

「Amazon Transcribe」