プログラムでおかえしできるかな

Python、フェイジョア、日常のあれこれでお返し、元SEの隠居生活。

音声入力で文章作成するアプリ【フリー】

このエントリーをはてなブックマークに追加

パソコンのマイクに向かって話した内容を文字にするアプリを公開します。

連続して話しても文字にします。
文字はテキストファイルに保存します。
ブログの下書き作成などに使えますよ。

▽アプリの画面

音声入力

思いついた文章を書き留めるのに音声入力という方法があります。
思いつく場所がどこかわからないので、スマホアプリ 1 の方が使いやすいのかもしれません。

紹介するアプリは Windows 環境で動作するアプリです。
私自身は、長年、頭で考えて指で打つのが習慣になっているので、作ってはみたもののあまり活躍していません。

長い文章をすらすらと声にできる方はきっと重宝すると思います。
そうでなくてもキー入力が苦手な方は使ってみる価値があると思います。

世間には既にいろいろなツールが提供されているので、この記事を機会に、そちらを使っていただくのも良いと思います。

でも、このアプリもお手軽に使えて良いですよ。

Pythonで作成 アプリの作成方法が知りたい方は、別記事をご覧ください。
📖 音声入力で文章作成するアプリの作り方【Python】 🔗
目次

しきい値とは

はじめに、この後に出てくる「しきい値」について説明します。
しきい値」とは、簡単に説明すると何かの境界となる値です。
音声入力でのしきい値とは、「雑音」と「音声」の境界の値です。

音声入力では、マイクで拾える音に音声が入っている時だけ音声認識をしたいので、音声が入っていない音を雑音と認識する必要があります。
そのためその境となる値を指定します。

例えば、小さくBGMが流れているような環境で、BGMを雑音と認識し、会話を音声と認識するための境界値をしきい値として指定します。
静かな環境では小さく、騒がしい環境では大きく指定します。
静かだからといってしきい値を小さくしすぎてしまうと、小声での会話が雑音と認識されてしまうかもしれません。
あるいは雑音を会話だと認識して、意味ない解析をしてしまうかもしれません。
しきい値を最大にしてもすべて雑音と認識されてしまうような騒がしい環境では、使えないことになります。

本アプリでは、しきい値を0から3500までの間で設定できます。
初期値は50にしてあります。
一応の目安として、静かな部屋の一般的な値は0〜100で、話している時の一般的な値は150〜3500です。

◆主な機能

  • Google Speech Recognition を使用して音声認識します。
  • 認識した音声を文字で画面表示(認識順)します。
  • 認識した音声を文字でファイル出力(話した順)します。
  • 音声認識に関する設定(音声と雑音のしきい値しきい値の動的調整のオン/オフ)ができます。
  • 画面表示するフォントのサイズを変更できます。

◆使い方

パソコンのマイクを使える状態にして、exe を起動してください。
しきい値、動的調整、フォントサイズは起動後に設定変更できます。
 起動引数を指定すれば起動時に指定することもできます。

後は「開始」ボタンを押すだけです。

音声入力を止める時は「ストップ」とだけ話してください。
再開したい場合、「開始」ボタンを押せば再開します。

▽アプリ起動直後の画面

音声入力

▽「開始」ボタンを押した後の画面

音声入力

※PC 起動直後は実行開始までに 10秒以上かかります。ご了承ください。

◇起動引数を指定する方法

下に記述した起動引数を指定してアプリを起動できます。
起動時に指定できるのは、しきい値、フォントサイズ、動的しきい値調整です。
アプリを起動する時に -h 引数を付けて起動すると起動引数のヘルプを表示します。

usage:     voice_input_GSR.exe [-h] [-t n] [-f n] [-d bool]

オプション引数:
  -h, --help              show this help message and exit
  -t n, --threshold n     しきい値(default:50)
  -f n, --font n          フォントサイズ(default:20)
  -d bool, --dynamic bool 動的しきい値調整(default:False)

◇操作方法

  • 音声入力の開始
    「開始」ボタンをクリック
  • 音声入力の終了
    「ストップ」と話す(単語として認識するように)
    「ストップ」を認識しても音声入力待ちになることがあります
    その場合はもう一度、何か話してください
  • ファイル出力
    ファイル出力は自動で行います
    exeファイルのあるフォルダの「音声入力.txt」に追記します
    ファイルがなければ作ります
    音声入力ごとに「◆年月日 時分秒」が区切りとして挿入されます
  • 設定
    次の項目が設定できます
    • しきい値:音声と雑音のしきい値を指定します(0~3500)
      雑音が大きい環境ほど大きくします
    • フォントサイズ:表示する文字のサイズを指定します
    • 動的しきい値調整:チェックを付けるとしきい値の調整を動的に行います
      静かな環境の場合、効果的ではありませんでした

◇画面の説明

  • 音声入力待ちの時に「nΩ」と表示します(表示されるのを待つ必要はありません)
  • 入力した音声の解析を開始すると「n⎘」と表示します
  • 解析が完了すると「n===>認識した文字」と表示します
  • 上記のnは1からの整数で話した順番です
  • 認識できなかった場合、「?」と表示します(ほとんどは無音(雑音)です)
  • 「ストップ」が認識できると「「ストップ」を認識したので終了します」と表示します
    続けて認識した文章を表示します。この内容をファイル出力します
  • しきい値について
    • 音声入力中に「?」がたくさん出る場合はしきい値を大きくしてください
    • 開始ボタンを押しても「nΩ」が表示されない時はしきい値を小さくしてください

◇実行結果の表示

音声入力が始まると次のような表示が出ます。

▽終了時の画面

音声認識した結果の出力

音声入力の結果は、ファイルに出力します。

  • ファイル名:「音声入力.txt
  • フォルダ:exe ファイルのあるフォルダ
  • 出力方法:追記。ファイルがなければ作ります。
  • フォーマット:音声入力ごとに「◆年月日 時分秒」を区切りとして挿入

▽出力内容の例

◆2022年10月28日 19:17:45
テスト テスト
今度はちゃんと入ってる
行ってるね
違うよ 偶然じゃない私たちは皆 自分で選んでここに来たの 君と私のクラスが一緒だったのものも あの 病院にいたのも偶然じゃない 運命なんかでもない
君が今までしてきた選択と私が今までしてきた選択が私たちを会わせたの 私たちは自分の意思で出会ったんだよ

この例は次節の文章を読んで認識した結果です。
余りにきれいに認識できているのでちょっとつまらないくらいです。
実際にはもっと誤認識します。
「行ってるね」と出力されているところは、「入ってるね」と発音したものの誤認識です。

★出力ファイルはテキストファイルなのでコピペしてブログ記事に貼り付けることができます。

◇入力に使った小説

「違うよ。偶然じゃない。私達は、皆、自分で選んでここに来たの。
君と私がクラスが一緒だったのも、あの病院にいたのも、偶然じゃない。
運命なんかでもない。君が今までしてきた選択と、私が今までしてきた選択が、私達を会わせたの。私達は、自分の意志で出会ったんだよ」
君の膵臓をたべたい

◇考察

使ってみた感想をいくつか列挙します。

  • かなり認識率は高い印象です。
  • どのくらいの無音期間で解析が始まるのかわからなくて解析結果を待ってしまいます
    ⇒どんどん話しても解析します。
  • 句読点は入りません
    ⇒ブログなどで使うには後から補正する必要があります
  • 正しく認識されないと発音が悪いのかなと思ってしまいます
    ⇒少し笑えます。発声のトレーニングになるかも。

◆マイクが機能しているか不安なときは

アプリがマイクを認識できない時は、次のメッセージが出て起動しません。

マイクが動作しているかどうかわからない場合は、こちらのサイトを参考に確認してください。
富士通のサイトですが、分かりやすいです。

富士通Q&A - マイク機能が正常に動作しているかどうかを確認する方法を教えてください。 - FMVサポート : 富士通パソコン

◆制限事項

  • マイクが既定のデバイスとして認識されている必要があります
  • インターネットに接続している泌悠があります
  • Google Speech Recognition について Google に情報が見つかりませんが動作しています。
    Google Speech Recognition がサービスされなくなると動作しなくなります。
  • マイクに風があたる様な環境では会話の切れ目がうまく認識できないことが多くなります
  • 動的しきい値調整を有効にした場合に、しきい値が20以下に設定された場合に20に戻します
    しきい値が小さすぎると少しの音で解析してしまうためです

◆アプリの取得

アプリを含んだzipファイルを下記からダウンロードして取得します。
ダウンロードしたzipファイルを解凍すると次のファイルができます。
任意のフォルダにファイルを保存してください。

  • プログラム: voice_input_GSR.exe

◇動作環境

  • Windows 64ビット OS
  • 内蔵、または外付けマイクがあること

◆更新情報

  • 2022-12-28 1.0.2
    • 音声認識した文字の表示位置を末尾へ変更 更新:2022-12-28
  • 2022-11-07 1.0.0:初期リリース

◆さいごに

個人的には、お子さんのおもちゃになってくれるような気がしています。

自分の話した言葉が思ったように認識されないことがあります。
そんな時、怒らないで面白がってもらえれば、立派なおもちゃだと思います。
日本語変換の誤変換で遊ぶような感じです。

話して文章を作るのになれると音声入力は便利です。
キーボードから入力すると変換結果に気を付けながら入力するので、頭の中の文章が途切れます。
次、何て入力しようと思っていたんだっけということも起きます。

音声入力も正しく認識できていればいいのですが、誤認識されていると元々なんて話したかったのか思い出せないこともあります。

ちょっとした脳トレになります。

そんな音声入力ですが、少しでもブログ運営のお役に立てれば幸いです。

あわせて読みたい 📖 はてなブログ向け画像ツール【フリー】 🔗
画像に対し、サイズ変更、反転、文字透かし挿入ができ、はてなフォトライフにアップロードできるツールの紹介記事です。

◇免責事項

ご利用に際しては、『免責事項』をご確認ください。
お気づきの点がございましたら『お問い合わせ』からお問い合わせください。

投稿: 、更新: