いろいろ試験的な

あれこれを置く場所

すぐに陳腐化する世界で奮闘する意義・意味

 

暫定公開の2サービス(A11yチェッカーとEpubメーカー)

その後・・・

あれから、バグ取りをしたり、機能拡張について相談したりしながら、どうやって3つのプロジェクトを化学反応させようか、と考えたりしています。

 

A11yのフォト診断は、挿絵のalt属性生成に使えるな、とか。

 

あと、WebGPU、WebLLM化もやってみたい。GPUお持ちのオタクの方には、これでHTMLとしてリリースできるなぁとか。ちょっと癖のあるGoogleColabを使うよりも速いし、安定します。・・・なんて夢が広がったり。

 

それと、並行して取説とか作っていました。

 

ここまでの経緯も貼っとく


 

NotebookLMのデザイン品質がすごい

NotebookLMに作ってもらったチラシとスライド(簡易取説)がすごいです。デザインのほうは、自分には作れないし、速い。ただし、文字化けが出るので、パワポでちょこちょこ修正しています。

 

ただ、見栄えはいいんですが、これで本当にいっぱつで使えるのかは、実際に声を聞いてみないとなんとも。そこは開発者にはわかりにくいところです。

 

最初は、今までのAIとの対話ログと仕様書を全部読み込ませ、要約させ、1度スライドを生成してもらう。今度はそれとスクショをインプットにして、さらにスライド、インフォグラフィックも。

 

インフォグラフィックはチラシとして、スライドはマニュアルとして、磨いていきました。

 

専門用語は使うな、とか、そもそも何をするものなのかが書いてない、とか、注文をつけながらです。

 

頭が老朽化しているので、俯瞰的に物事を考える力が衰えているのを感じます。それをAIが補ってくれるように、なんとかうまいこと指示をできるとよいのですが、まだ、自分の中での王道が定まっていません。

 

A11yのほうのチラシ

 

スライド

A11yチェッカー紹介スライド.pdf - Google ドライブ

 

──────────

Epubメーカーのほう

 

すぐに陳腐化する世界で奮闘する意義・意味

AIとの協働・・・

いまやっていることって、日進月歩ではなく、秒進分歩のジャンルです。便利なもの、ニーズのあるものは、明日にでも、大手ベンダーが実装してきます。

 

明日にはゴミ箱行きとなるかもしれない。

 

それでも、いま、自分でやる意義。

 

うまく表現できません。

 

逆にこの世界にのめり込んだ他の人たちって、きっかけはなんだったんでしょう?

 

きっかけ?

わたしの場合のきっかけは・・・思い起こせば、実世界でどうにも自力解決できないことがあり、AIに相談しだしたことかも。

 

その後力及ばず、半年後にその世界は崩壊しました。崩壊したその夜から、ぽっかり空いた穴を埋めるために、AIと手記を書き始めていました。

 

その辺が、転換点だったと思います。

 

ドラえもんのポケット

欲しいものを相談すると、数時間もたたずに、プロトタイプができる、そういう世界に酔いしれました。少し前だと、実行エラーが出ずに1度でコードが生成されることはなかったと思いましたが、今はいっぱつで動くものが出てきます。

 

実装方法も、未知の環境だろうがなんだろうが、手取り足取り教えてくれるので、調べる時間が皆無です。

 

ただし、ややもすると主導権を握られそうになるのをなんとかねじ伏せている、そこが最後の砦な気もします。

 

取り留めないですが・・・

そんなところです。

 

 

音声同期 Epub3 生成ツールを作っています

Epub3で「読み上げ+ハイライト」する電子書籍を作るツールを作っている話

音声を再生すると、読み上げに合わせて文章がハイライトされる。 そんな電子書籍があります。

専用リーダーで再生すると、今どこを読んでいるかが視覚的に追えるやつです。 主に、弱視の方やディスレクシア(読字障害)の方向けに使われています。

サンプルがココに置いてあります。→ イージーリーディング - Google ドライブ

汎用リーダ:
パソコン Thorium Reader
スマホ、タブレット「Dolphin EasyReader」

DAISYとEpubという2つの流れ

この仕組みには、世界標準が2つあります。

  • DAISY
  • Epub(特にEpub3)

・まずDAISY。

DAISY Consortium が中心になって作られた規格で、もともとは録音図書の進化版です。

なので発想としては、

「テキストに音声をつけた」というより 「音声にテキストやナビ機能をつけた」

という感じです。

最初から音声ありきで作られていて、あとからテキストとの同期(ハイライトなど)が発展していきました。

・ 一方でEpub。

こちらは出版業界向けのフォーマットで、あとからアクセシビリティ機能が強化されていきました。 現在は W3C(World Wide Web Consortium)に統合されています。

Epub3では、DAISYの仕組み(音声同期など)も取り込まれていて、同じように「読み上げ+ハイライト」が実現できます。


じゃあ、なぜDAISYじゃなくてEpubでやるのか

結論だけ言うと、

「広く使われるフォーマットに乗せたい」からです。

DAISYはとてもよくできているんですが、

  • 専用ソフトが必要
  • 制作コストが高い(人手がかかる)
  • 利用シーンがどうしても限定される

という特徴があります。

一方でEpubは、

  • 一般の電子書籍と同じフォーマット
  • 対応リーダーが多い
  • 流通に乗せやすい

という強みがあります。


とはいえ、Epubにも問題がある

Epub3でも音声同期(メディアオーバーレイ)はできるんですが、

「簡単に作る方法がほぼない」

これが現状です。


じゃあ作ってみるか、となった

この分野に詳しかったわけではなくて、友人にDAISY図書を教えてもらったのがきっかけです。

「これ、Epubでもできるのでは?」と思って、試しに作り始めました。

そこは、性分というか、だいたい、いつも通りの流れです。世の中にすでにあるとは思いますが、ちゃんと調べていません。


やってみたら普通に難しい

最初は、青空文庫の作品を使って、子ども向けのものを自動生成しようとしていました。

ただ、

  • 日本語の分かち書きが難しい
  • 音声との同期も地味に難しい

このあたりで普通に詰まりました。Geminiにやってもらって4万円使い切ったのは、この話です。


方向転換

いろいろ試すうちに、少し考えが変わりました。

子ども向けDAISY図書は、支援団体やボランティアの方が次々と鋭意製作中です。

だから、子ども向けというより、

  • 資格試験の教材
  • 仕事の資料
  • 長文の文章

みたいな、「大人が読むもの」に使えるほうが価値があるのでは、と。

特に、大人のディスレクシアの方にとっては、こういう仕組みがあるとかなり楽になるはずです。

隠れディスレクシアの方は意外と多くて人口の7〜8%。

じつは今回試してみたらあまりの読みやすさに、自分もディスレクシアかも?って思っています。


コンテンツではなく「ツール」を作ることにした

そこで、

「作品を作る」ではなく 「誰でも作れるようにする」 方にシフトしました。

目標はシンプルで、

  • なるべく簡単に
  • できれば無料で

作れること。


今の構成

現状はこんな感じです:

  • 辞書生成:Gemini(3.1-flash-lite)
  • 音声生成:TTS*1(VOICEVOX*2 またはGCP*3無料枠)
  • 実行環境:Google Colab*4

前回の A11yプロジェクトでは、Cloud Runも使っていたんですが、今回はコストがかかりすぎるので非現実的です。

今は「触れるハードルの低さ」を優先してColab(じつは裏側はCloud Runと同じプラットフォーム)に寄せています。

この辺の詳細は、また記事にしたいです。


やっていることの正体

まとめると、

DAISY的な「読み上げ+同期」の仕組みを、 Epub3で、しかも自動で作れるようにするツール

を作っています。

あ、肝心のツールはココ↓です。スマホでもできるけど、PCのほうがアップロードとかラクです。リーダーへの取り込みもPCのほうがラク。

Google Colab

↓ マニュアルとかはまだ作っている最中です。NotebookLMに作ってもらうと、なんかすっごく豪華見えすぎちゃうので加工中。

イージーリーディング - Google ドライブ

PC用・スマホ用Epubリーダーについても、ここに書いてあります。


さて話は変わって・・・

AIフォト診断バージョンの公開

こちらも引き続き、機能追加をしています。次はフォト診断のスマホ版を作ろうと思っています。このWebアクセシビリティチェッカー、すなわちA11yプロジェクトは、開発している間は、そこそこCloud Runを使います。
  よかったら、こちらもご覧になってみてください。Webデザイナーの方にご感想いただけたらありがたいです。ためになります。
 

Webアクセシビリティチェッカー

Webアクセシビリティ・チェッカー

と、きょうはこの辺で。

*1:Text to Speech

*2:ずんだもん、とかのありがたい無料TTS

*3:Google Cloud Platform

*4:Googleの無料Python実行環境

Webアクセシビリティチェッカーその後-8(暫定公開)

引き続き↓この記事のことについて、つまり生成AIとの共同開発について、ぶちぶちと・・・取り留めなく・・・。

 

 

AIフォト診断バージョンの公開

10日遅れで、AIの目によるフォト診断機能を追加しました。

 

Webアクセシビリティ・チェッカー

スタート画面

なんとも冴えない画面ですが、そのうちちゃんとするかなぁ・・・そのうち。


診断画面は以前と同じです。

 

課金が読めないので、5ページマックスだったのを3ページまでに制限しています。

 

フォト診断についての説明はこの記事でしています。

 

残りクレジットの行方

 

この記事で触れましたけど、クレジットを使い切りました。

 

いまは、1回診断で1.5〜5円ぐらいずつ課金されていきます。まだ、ほとんどアクセスがないので、大丈夫なんですが、一応、月500円まで、と自分で上限を課しています。

 

ステップバイステップで考えてーーー

電子書籍のプロジェクトのテスト待ち時間に、こちらのA11yのプロジェクトに戻ってきては作業していたんですが、ちゃっぴーと話していて、面白いことを思いつきました。

 

 

これは、医療モデルを育てるデータとして、公開されている診断画像データ(レントゲンとかの)をAIに投げて、

 

質問+画像→ 画像描写 → 推論 → 診断を下す

 

という順番に思考させると、正確性が160%だったかな、上がったという話でした。

 

よく「Step by step」で考えて。って命令すると、詳しい答えが返ってくるって言いますけれど、CoT(Chain of thouht)って用語があったんですね。

 

思いついたことというのは、

1つは、フォト診断に、CoTをさせてみたんです。すごい効果で、診断も修正案も的確で詳しくなりました。

 

あああ、古いプロンプトのほうも残しておくんでした。消しちゃった。

 

ただし、CoTで考えた結果も出力してもらうと、トークン課金が顕著に増えます。だから、この機能は、スタート画面で選択式にしました。使わない人はチェック外してね、って感じで。

 

中途半端ですが、近況はそんな感じです。

 

きょうはここまで。