目的

このサイト kuzushiji.work(くずし字・ドット・ワーク)は、くずし字で書かれた文献から文字画像を切り出し、機械学習用のデータを作っていくサイトです。
みんなでAI自動翻刻を実現させましょう⭐️

課題

CODH(人文学オープンデータ共同利用センター)から提供中のAI技術をベースとしたくずし字データおよびOCRアプリ類は、これまでのくずし字の解読スタイルを大きく変えるものでした。
しかし、現状のくずし字データは、日本文学(古典籍)やレシピなどの比較的ひらがな多めの本から採取したものです。
そのため、公文書や書状などの改まった「書き言葉」に多用される漢字中心の文書に対してOCRを行うと、精度が大幅に低下します。
そこで、本システムを通じて、現状のAI用くずし字データを積極的に増やし、誰でもくずし字データを無償で使用できるようにしたいと思います。

「くずし字データ」とは

このサイトでは、くずし字1文字の画像+対応する文字の表記や抽出元の画像での位置などの詳細な情報が入ったJSONデータ(アノテーションデータとも言います。)を「くずし字データ」と呼んでいます。

面白そうだと思ったら...

メールアドレスとお名前(ニックネームOK)をサイトに登録して、ぜひお手伝いお願いします。
メールアドレスは本サイトの管理者が責任を持って管理します。