タナカ印刷株式会社

お問い合わせフォーム

AI技術の「音声認識」
…どこまで使えるか。

AIの技術の中に「音声認識」というものがあります。
人間が話した音声を、コンピューターが聞き取って認識する技術のことです。

CMでもおなじみの「Hey Siri」とか「アレクサ、電気を消して」、「OK Google~」など音声認識技術を使ったサービスはさまざまありますね。

〈豆知識〉
【音声認識】とは、コンピューターが聞き取った音声データを、テキストデータなどに変換する技術です。
人間が言葉をそのまま理解できるのに対し、コンピューターは音響解析や言語解析といった作業を高速で行って音声を認識します。
人間の「話し言葉」や「書き言葉」を機械でデータ化し、さらには意味を解析したり内容を抽出したりすることを【自然言語処理】と言います。

弊社も「動画の中の音声をテキスト化したい」「議事録作成のために録音データをテキスト化してくれないか」といったご依頼をいただくことがあります。
音声データや動画データから適切に文字を起こして、テキストデータにて納品させていただいております。

このWEBページは、メルマガと連動した「ビジネスのお役立ち」が目的です。
少量のものならご自分で音声から文字にしたい方のために、今回は音声認識を使用してテキスト化する方法をご紹介します。
GoogleとiPhoneの2種類を試してみました。

(※タナカ印刷がお客さまからご依頼いただく文字起こしは、この方法で行っておりません。人間が音を聞いてテキスト化しています。)

Googleドキュメントで音声をテキスト化

WEB会議が盛んです。
Zoomで録画した動画の音声を、Googleドキュメントの音声認識でテキスト化できるか、テストしてみました。

※Googleドキュメントは、GoogleのIDをお持ちであれば使用可能です。

  • ブラウザー「Google Chrome」からGoogleアプリの「ドキュメント」を選択します。
  • 新しいドキュメントを作成し、「ツール」→「音声入力」で音声を認識させます。

※Googleドキュメントに音声を認識させるためには、パソコンの「入力デバイス設定」をコンピューターの音を認識する「ステレオミキサー」にする必要があります。「入力デバイス設定」を変更するとWEB会議にて声が聞こえなくなる場合がありますのでご注意ください。

下記動画はZoomで録画した動画を、Googleドキュメントがテキスト化している様子です。

  • Zoom収録環境
    ・Zoomの録画機能で収録
    ・WINDOWS10 ノートパソコン
    ・パソコンに標準搭載のカメラ・マイクを使用
    ・パソコンの入力デバイス設定:マイク配列

    Googleドキュメントの音声認識環境
    ・WINDOWS10 ノートパソコン
    ・パソコンの入力デバイス設定:ステレオミキサー

音声を自動で認識し、テキストになっていく様子はやはり驚きですね。

※Zoom自体にも、英語の文字起こし機能があります(有料版のみ・2020年12月時点)。やがて日本語の文字起こし機能も付加されるのではないでしょうか。

さて、出来上がったテキストを見ると句読点がないですね。
タナカ印刷が田中印刷になっているのは、やむを得ないでしょう。

こんな事情がありますから、人によるテキストの文字確認・修正は欠かせません。
以前、別の動画をこの方法で試した結果、音声を認識しないものや途中で反応しなくなるケースもありました。

とはいえ、音声をコンピューターが自動でテキスト化してくれるのは助かりますね。

スマートフォンの音声認識も優れもの

最近では、スマートフォンでも音声入力できるようになっています。
すでにお使いの方も多いのではないでしょうか。
下記はiPhoneでの音声入力画面。
アプリの「メモ」を開いて入力しようとすると、右下にマイクのアイコンが見えます。
クリックすると音声入力OKの状態になります。
iPhoneに向かって言葉を発すると、どんどん文字にしてくれますよ。

下記動画はiPhoneの「メモ」アプリで音声をテキスト化している様子です。
※音声は収録していません。

こちらも出来上がったテキストを見ると句読点がない。
タナカ印刷が田中印刷になっているのも同じ。
加えて、メール下部がメール株になっていますね。

人によるチェックは、やはり欠かせません。

でも手近なスマホで、手を動かさずに声で文字を打ち込んでいけるのですから、便利なのは間違いありません。

まとめ

音声認識の技術は、さまざまなモノに展開されていて、うまく使って業務を効率化したいですね。

でも、作業の分量が多いほど文字の見直しは大変ですし、アプリがうまく動作しなかったりすると、その解決に手間取ったりもします。

なんでも自前でこなすのは、簡単ではありません。
音声データのテキスト化でお困りの際は、ぜひタナカ印刷にご相談ください。

今回の情報が、皆さまのビジネスに少しでもお役に立てば幸いです。

本サイトに掲載されている商品またはサービスなどの名称は、各社の商標または登録商標です。

・「Google」および「Google ドキュメント」は Google LLC の商標であり、本サイトはGoogle によって承認または提携されていません。

・「iPhone」は、米国および他の国々で登録されたApple Inc.の商標です。本サイトは、レビュー記事であり、Apple Inc.が認定、後援、その他承認したものではありません。

・「Windows (R) 10」、は、Microsoft Corporationの商標または登録商標です。

・「Zoom」は、Zoom Video Communications, Inc.の商標または登録商標です。

※その他会社名、各製品名は、一般に各社の商標または登録商標です。