« 二泊三日の出張で、関西文化に浸る | トップページ | 東京オリンピックの観戦チケットがそんなにまで欲しいのか »

2019年7月12日

古文書の「くずし字」を解読するシステム

"日本文化と今をつなぐ。Japaaan" というサイトに、”便利すぎるこれ! 古文書や浮世絵のくずし字を自動解読してくれる無料の「AI くずし字認識」が素晴らしい!" というページがある。古文書などのいわゆる「くずし字」(草書、変体仮名など)を現代の文字に変換してくれるツールが開発されているというのだ。

190712

文字解読はインターネット上で行われるので、読み取りたい文書はブラウザに画像として表示されなければならない。つまり手元にある紙ベースの古文書を読み取りたいと言っても、それは無理なのだ。

とはいえ読みたい古文書をその場で写真に撮り、その画像を自分の SNS などにアップしてしまえばブラウザに表示されるので、決して「使い物にならない」というわけじゃない。ただ解読は文字単位で行われるので、1文字ずつ解読操作を行わなければならないというのが、ちょっと手のかかるところだ。文単位ですらすらと解読されるというわけじゃないらしい。

上の画像を見ても、浮世絵師、歌川國芳の 「國」という文字らしき 1文字を解読して、ちゃんと「國」という文字であるという可能性が 55.4%であると示されている。さらに本文中には下のように、「ふ」らしき文字の解読を行って、「ふ」である確率が 83.8% であるということを示す画像もある。ただ、このくらいは別にこのシステムに頼らなくても結構読めちゃうよね。

Japaaanimage42

実際のところは、「ふ」の一文字を判読するよりも、この文字を含む文節をすらりと読めるということの方が重要で、役にも立つ。そしてそれをしようとすると、「ふ」の文字よりもその下の文字(下の画像の三文字目)の方がずっと厄介だ。

1907124

実はこの文字、「扁」の草書体に濁点が付いているので「べ」だ。だから 4文字で 「いふべし」、つまり「言うべし」と読めばいい。古文書を読む場合には、文字単位でチマチマ認識するよりも流れで読まないと一向に前に進まない。

ただ実際には、「この一文字、何と読むのかなあ」とやたら迷い、その一文字がわかりさえすれば文全体が一挙に解決するという場合もある。この認識システムはそうしたケースでこそ役に立つだろう。

これに頼って文字単位で読む進むのでは日が暮れてしまうから、古文書を読もうというなら、普段からある程度慣れておくことが必要だ。

【7月 16日 付記】

わざわざ言うまでもないことかもしれないが、「古文書」は「こぶんしょ」ではなく「こもんじょ」と読んでいただきたい。念のため。

 

|

« 二泊三日の出張で、関西文化に浸る | トップページ | 東京オリンピックの観戦チケットがそんなにまで欲しいのか »

言葉」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




« 二泊三日の出張で、関西文化に浸る | トップページ | 東京オリンピックの観戦チケットがそんなにまで欲しいのか »