見出し画像

AIでくずし字を読む――カラーヌワット・タリン

文・カラーヌワット・タリン(人文学オープンデータ共同利用センター特任研究員)

 江戸時代以前の古典籍や古文書などを合わせると、日本には1億点以上の文字史料が現存しています。これだけ膨大な数の史料が残る国は、世界的にみても非常に稀です。

 ただし、それらの貴重な史料は十分に活用されていません。その大半が、古代から1,000年以上にわたり使われてきた筆記体「くずし字」で書かれているため、源氏物語や織田信長の書状といった有名な史料を除けば、現代の日本語文字に置き換える「翻刻」をされているのはごくわずかなのです。

 現在、くずし字を読むことができるのはわずか数1,000人、人口の0.1%ほどといわれています。人間の手で残りの史料を翻刻しようとすれば、何百年もかかってしまう。歴史学や国文学の発展のためには、大量のくずし字をどう読み解くかが重要な課題となっているのです。

 私も母国・タイから日本に留学した当初は、くずし字の読解に苦労しました。元々、早稲田大学の大学院で源氏物語を専攻していましたが、論文を書く度に大量の史料を翻刻しないといけないので、「自動で翻刻してくれる機械があればいいのに」と願っていたものです。

 くずし字を翻刻するAI技術の研究に着手したのは2018年でした。全国の大学の共同研究機関である「情報・システム研究機構」の傘下にある、人文学オープンデータ共同利用センターの研究員に就任し、センター長の北本朝展先生とカナダのAI研究者、アレックス・ラム氏と協力して、「KuroNet」の開発を始めたのです。

 その仕組みは簡単です。まず史料を、JPEG形式の画像データとして読み込みます。すると、わずか1秒で、くずし字の隣に現代日本語の翻刻文がルビのように赤字で表示されるのです。開発から1年が経ち、いまでは85%を超える精度で翻刻することができます。

続きをみるには

残り 1,161字
noteで展開する「文藝春秋digital」は2023年5月末に終了します。同じ記事は、新サービス「文藝春秋 電子版」でお読みいただけます。新規登録なら「月あたり450円」から。詳しくはこちら→ https://bunshun.jp/bungeishunju

文藝春秋digital

¥900 / 月

月刊誌『文藝春秋』の特集記事を中心に配信。月額900円。(「文藝春秋digital」は2023年5月末に終了します。今後は、新規登録なら「…

「文藝春秋digital」は2023年5月末に終了しました。今後は「文藝春秋 電子版」https://bunshun.jp/bungeishunju をご利用ください