いろいろ試験的な

あれこれを置く場所

音声同期 Epub3 生成ツールを作っています

Epub3で「読み上げ+ハイライト」する電子書籍を作るツールを作っている話

音声を再生すると、読み上げに合わせて文章がハイライトされる。 そんな電子書籍があります。

専用リーダーで再生すると、今どこを読んでいるかが視覚的に追えるやつです。 主に、弱視の方やディスレクシア(読字障害)の方向けに使われています。

サンプルがココに置いてあります。→ イージーリーディング - Google ドライブ

汎用リーダ:
パソコン Thorium Reader
スマホ、タブレット「Dolphin EasyReader」

DAISYとEpubという2つの流れ

この仕組みには、世界標準が2つあります。

  • DAISY
  • Epub(特にEpub3)

・まずDAISY。

DAISY Consortium が中心になって作られた規格で、もともとは録音図書の進化版です。

なので発想としては、

「テキストに音声をつけた」というより 「音声にテキストやナビ機能をつけた」

という感じです。

最初から音声ありきで作られていて、あとからテキストとの同期(ハイライトなど)が発展していきました。

・ 一方でEpub。

こちらは出版業界向けのフォーマットで、あとからアクセシビリティ機能が強化されていきました。 現在は W3C(World Wide Web Consortium)に統合されています。

Epub3では、DAISYの仕組み(音声同期など)も取り込まれていて、同じように「読み上げ+ハイライト」が実現できます。


じゃあ、なぜDAISYじゃなくてEpubでやるのか

結論だけ言うと、

「広く使われるフォーマットに乗せたい」からです。

DAISYはとてもよくできているんですが、

  • 専用ソフトが必要
  • 制作コストが高い(人手がかかる)
  • 利用シーンがどうしても限定される

という特徴があります。

一方でEpubは、

  • 一般の電子書籍と同じフォーマット
  • 対応リーダーが多い
  • 流通に乗せやすい

という強みがあります。


とはいえ、Epubにも問題がある

Epub3でも音声同期(メディアオーバーレイ)はできるんですが、

「簡単に作る方法がほぼない」

これが現状です。


じゃあ作ってみるか、となった

この分野に詳しかったわけではなくて、友人にDAISY図書を教えてもらったのがきっかけです。

「これ、Epubでもできるのでは?」と思って、試しに作り始めました。

そこは、性分というか、だいたい、いつも通りの流れです。世の中にすでにあるとは思いますが、ちゃんと調べていません。


やってみたら普通に難しい

最初は、青空文庫の作品を使って、子ども向けのものを自動生成しようとしていました。

ただ、

  • 日本語の分かち書きが難しい
  • 音声との同期も地味に難しい

このあたりで普通に詰まりました。Geminiにやってもらって4万円使い切ったのは、この話です。


方向転換

いろいろ試すうちに、少し考えが変わりました。

子ども向けDAISY図書は、支援団体やボランティアの方が次々と鋭意製作中です。

だから、子ども向けというより、

  • 資格試験の教材
  • 仕事の資料
  • 長文の文章

みたいな、「大人が読むもの」に使えるほうが価値があるのでは、と。

特に、大人のディスレクシアの方にとっては、こういう仕組みがあるとかなり楽になるはずです。

隠れディスレクシアの方は意外と多くて人口の7〜8%。

じつは今回試してみたらあまりの読みやすさに、自分もディスレクシアかも?って思っています。


コンテンツではなく「ツール」を作ることにした

そこで、

「作品を作る」ではなく 「誰でも作れるようにする」 方にシフトしました。

目標はシンプルで、

  • なるべく簡単に
  • できれば無料で

作れること。


今の構成

現状はこんな感じです:

  • 辞書生成:Gemini(3.1-flash-lite)
  • 音声生成:TTS*1(VOICEVOX*2 またはGCP*3無料枠)
  • 実行環境:Google Colab*4

前回の A11yプロジェクトでは、Cloud Runも使っていたんですが、今回はコストがかかりすぎるので非現実的です。

今は「触れるハードルの低さ」を優先してColab(じつは裏側はCloud Runと同じプラットフォーム)に寄せています。

この辺の詳細は、また記事にしたいです。


やっていることの正体

まとめると、

DAISY的な「読み上げ+同期」の仕組みを、 Epub3で、しかも自動で作れるようにするツール

を作っています。

あ、肝心のツールはココ↓です。スマホでもできるけど、PCのほうがアップロードとかラクです。リーダーへの取り込みもPCのほうがラク。

Google Colab

↓ マニュアルとかはまだ作っている最中です。NotebookLMに作ってもらうと、なんかすっごく豪華見えすぎちゃうので加工中。

イージーリーディング - Google ドライブ

PC用・スマホ用Epubリーダーについても、ここに書いてあります。


さて話は変わって・・・

AIフォト診断バージョンの公開

こちらも引き続き、機能追加をしています。次はフォト診断のスマホ版を作ろうと思っています。このWebアクセシビリティチェッカー、すなわちA11yプロジェクトは、開発している間は、そこそこCloud Runを使います。
  よかったら、こちらもご覧になってみてください。Webデザイナーの方にご感想いただけたらありがたいです。ためになります。
 

Webアクセシビリティチェッカー

Webアクセシビリティ・チェッカー

と、きょうはこの辺で。

*1:Text to Speech

*2:ずんだもん、とかのありがたい無料TTS

*3:Google Cloud Platform

*4:Googleの無料Python実行環境