見出し画像

AIでくずし字を読む――カラーヌワット・タリン

文・カラーヌワット・タリン(人文学オープンデータ共同利用センター特任研究員)

 江戸時代以前の古典籍や古文書などを合わせると、日本には1億点以上の文字史料が現存しています。これだけ膨大な数の史料が残る国は、世界的にみても非常に稀です。

 ただし、それらの貴重な史料は十分に活用されていません。その大半が、古代から1,000年以上にわたり使われてきた筆記体「くずし字」で書かれているため、源氏物語や織田信長の書状といった有名な史料を除けば、現代の日本語文字に置き換える「翻刻」をされているのはごくわずかなのです。

 現在、くずし字を読むことができるのはわずか数1,000人、人口の0.1%ほどといわれています。人間の手で残りの史料を翻刻しようとすれば、何百年もかかってしまう。歴史学や国文学の発展のためには、大量のくずし字をどう読み解くかが重要な課題となっているのです。

 私も母国・タイから日本に留学した当初は、くずし字の読解に苦労しました。元々、早稲田大学の大学院で源氏物語を専攻していましたが、論文を書く度に大量の史料を翻刻しないといけないので、「自動で翻刻してくれる機械があればいいのに」と願っていたものです。

 くずし字を翻刻するAI技術の研究に着手したのは2018年でした。全国の大学の共同研究機関である「情報・システム研究機構」の傘下にある、人文学オープンデータ共同利用センターの研究員に就任し、センター長の北本朝展先生とカナダのAI研究者、アレックス・ラム氏と協力して、「KuroNet」の開発を始めたのです。

 その仕組みは簡単です。まず史料を、JPEG形式の画像データとして読み込みます。すると、わずか1秒で、くずし字の隣に現代日本語の翻刻文がルビのように赤字で表示されるのです。開発から1年が経ち、いまでは85%を超える精度で翻刻することができます。

この続きをみるには

この続き: 1,182文字
この記事が含まれているマガジンを購読する
政治家や経営者のインタビュー、芸能人の対談、作家のエッセイ、渾身の調査報道、心揺さぶるノンフィクション……「活字エンターテインメント」のすべてがここにある。

文藝春秋digital

月額900円

シェアしたくなる教養メディア。発行部数No.1の総合月刊誌「文藝春秋」が、月額900円であなたの人生を豊かに彩るコンテンツを毎日お届け...

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

note.user.nickname || note.user.urlname

サポートありがとうございます。もっともっと面白く、クオリティが高いコンテンツを作っていけるよう、頑張ります。

ありがとうございます!
1
シェアしたくなる教養メディア。100年近くの歴史がある総合月刊誌「文藝春秋」が、あなたの人生を豊かに彩るコンテンツを毎日お届けします。 Facebook:https://www.facebook.com/bungeishunju/