最新情報

2018年08月02日 数理ホールディングス
大漢和辞典の全文テキスト化に挑戦~語彙・辞書研究会で発表
去る6月、新宿NSビルで開催された語彙・辞書研究会主催第53回研究発表会において「大漢和辞典」専用OCRとフォントの開発をテーマに研究の成果発表を行いました。
長年望まれながらも未だ実現していない「大漢和辞典」の全文電子テキスト化。延べ1万8千ページ。普通のOCRにかけても出てくるのは認識ミスだらけのゴミデータ。あまりに複雑すぎて、テキスト化は無理だと誰も挑戦しなかった巨大山脈。
研究会では親字一覧の文字画像を基準として、総画順一覧の文字認識を試し、最大の問題である約5万の漢字を高速かつ高精度(認識率100%)に処理するための基礎技術の確立を報告いたしました。
「大漢和辞典」の電子テキスト化が成功すれば、いままでのOCRだと認識率99%どまりでそのままでは商用テキストとして利用できなかったものを、信頼性のあるテキストに大量変換することができます。

  • ◇大漢和辞典…戦中戦後の30数年(鈴木一平の依頼があった1925年から補巻が刊行された2000年までだと75年)の歳月と延べ25万8千人の人員を費やして完成されたといわれる世界的大著。
  • ◇語彙・辞書研究会…日本語の意味・用法をより厳密に分析・記述し、広く言葉に関わる語彙・辞書研究の進展を図ることを目的として設立された研究会。