マスジ ヒトミ
  増地 ひとみ
   所属   追手門学院大学  共通教育機構
   職種   准教授
発表年月日 2023/12/17
発表テーマ 音声認識で文字化されたテキストにおける誤認識と誤変換―漢字における問題を中心に
会議名 日本漢字学会 第6回 研究大会
主催者 日本漢字学会
学会区分 全国学会
発表形式 口頭(一般)
単独共同区分 単独
国名 日本
開催地名 京都市(京都大学吉田キャンパス)
開催期間 2023/12/16~2023/12/17
概要 近年の音声認識と自動文字化技術の発展により、人が発した音声や、録音された発話を、パソコン等を用いて容易に文字化できるようになった。「音声入力」「自動文字起こし」等と呼ばれるものである。音声の文字化は、インタビューや会話データの分析、放送における字幕制作、講演・会議等の記録作成など、さまざまな場面で需要がある。
この音声の文字化作業は以前は「テープ起こし」とも呼ばれ、人間の手作業によって行われてきた。人間の手作業による場合、文字化に必要な時間は元の音声の長さの4~6倍とも言われ、多くの時間と労力が必要である。
それが最近は、音声認識と自動文字化のシステムを利用することで、作業時間を大幅に短縮することができるようになった。音声や、音声を録音したファイルが短時間でテキストに変換される。人間の手でタイピングする段階を挟まないため作業効率が格段に上がったことに加え、パソコンのほかスマートフォンで利用できる手軽さも利点の一つである。
一方で、課題も指摘されている。代表的なものが、誤認識と誤変換である。これらの精度の問題により、現在、音声認識で文字化されたテキストをそのまま直ちに使用することはできない。人手による修正が必要である。もっとも、人間が音声を文字化した場合であっても、聞き間違いや誤変換は起こる。しかし、音声認識によって文字化されたテキストにおける誤認識と誤変換には、人間による聞き間違いや誤変換とは性質を異にするものも多く含まれる。
先行研究においては、誤認識と誤変換が問題視されてはいるものの、その実態を具体的に詳細に報告したものは見当たらない。本発表では、音声認識を利用して文字化されたテキストにはどのような誤認識や誤変換が見られるのか、漢字における問題を中心に報告した。