講演抄録/キーワード |
講演名 |
2020-02-27 14:40
ワードスポッティングを用いた古文書における文字の位置推定アルゴリズム ○永谷 黎・鈴木雅人・北越大輔(東京高専) |
抄録 |
(和) |
現在,劣化の進む古文書の保存を目的として,古文書のデータベース化が行われている.専門家が不足しているため解読作業が滞っており,これまでは従来のOCR技術を用いた自動認識の利用も試みられてきた.しかし,古文書の崩し文字は自動で区切るのが困難であるため,すべての文字を手作業または半自動で区切る必要があった.本研究では,同じ単語の文書内での位置を検索するワードスポッティングを用いて,文字の区切りと認識処理を同時に行うことにより,古文書のテキスト化の手間を削減する手法を提案する.提案手法では,平仮名各字種に対して検索を行った結果から位置と字種を確定し,次の検索範囲から除外する処理を付与する.また,処理を各字種の出現頻度や精度によって定められた優先度に従って順番に行う.その結果,文書内から同字種を数ヵ所切り出す作業を繰り返すだけで,一字種毎に数分でテキスト化を行うことが可能となる.複数の資料で精度評価をしたところ,文書内に登場する字数の3~4割程度を正しく検出することができた. |
(英) |
At present, digitalization of historical documents is carried out to preserve the degraded documents. Digitalization work has been stagnated due to lack of experts; therefore, the traditional OCR technology has been also used. However, all characters of historical documents had to be separated manually or semi-automatically, since it is difficult to automatically separate the connected characters in cursive style. In this paper, we propose a method to reduce the time and effort for making historical documents into text by performing character segmentation and recognition processing simultaneously using Word Spotting. In this method, position and character type are determined from the result of Word Spotting for each character type of Hiragana, and these areas are excluded in the next processing. And, the processing is carried out sequentially according to the priority determined by frequency of appearance and accuracy of each character type. As a result, it is possible to detect the character areas for each character type in a few minutes by specifying several areas of this character in the document. In the experiments on a proposed algorithm, 30 to 40% of characters in some documents can be detected correctly. |
キーワード |
(和) |
古文書認識 / ワードスポッティング / DTW / 崩し文字 / / / / |
(英) |
Historical Document Recognition / Word Spotting / DTW / Cursive Style / / / / |
文献情報 |
映情学技報 |
資料番号 |
|
発行日 |
|
ISSN |
|
PDFダウンロード |
|
研究会情報 |
研究会 |
HI IEICE-IE IEICE-ITS MMS ME AIT |
開催期間 |
2020-02-27 - 2020-02-28 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
画像処理および一般 |
テーマ(英) |
Image Processing, etc. |
講演論文情報の詳細 |
申込み研究会 |
IEICE-IE |
会議コード |
2020-02-HI-IE-ITS-MMS-ME-AIT |
本文の言語 |
日本語 |
タイトル(和) |
ワードスポッティングを用いた古文書における文字の位置推定アルゴリズム |
サブタイトル(和) |
|
タイトル(英) |
Location estimation algorithm of letter in historical document by using word spotting |
サブタイトル(英) |
|
キーワード(1)(和/英) |
古文書認識 / Historical Document Recognition |
キーワード(2)(和/英) |
ワードスポッティング / Word Spotting |
キーワード(3)(和/英) |
DTW / DTW |
キーワード(4)(和/英) |
崩し文字 / Cursive Style |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
永谷 黎 / Rei Nagaya / ナガヤ レイ |
第1著者 所属(和/英) |
東京工業高等専門学校 (略称: 東京高専)
National Institute of Technology, Tokyo College (略称: NITTC) |
第2著者 氏名(和/英/ヨミ) |
鈴木 雅人 / Masato Suzuki / スズキ マサト |
第2著者 所属(和/英) |
東京工業高等専門学校 (略称: 東京高専)
National Institute of Technology, Tokyo College (略称: NITTC) |
第3著者 氏名(和/英/ヨミ) |
北越 大輔 / Daisuke Kitakoshi / キタコシ ダイスケ |
第3著者 所属(和/英) |
東京工業高等専門学校 (略称: 東京高専)
National Institute of Technology, Tokyo College (略称: NITTC) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
第21著者 氏名(和/英/ヨミ) |
/ / |
第21著者 所属(和/英) |
(略称: )
(略称: ) |
第22著者 氏名(和/英/ヨミ) |
/ / |
第22著者 所属(和/英) |
(略称: )
(略称: ) |
第23著者 氏名(和/英/ヨミ) |
/ / |
第23著者 所属(和/英) |
(略称: )
(略称: ) |
第24著者 氏名(和/英/ヨミ) |
/ / |
第24著者 所属(和/英) |
(略称: )
(略称: ) |
第25著者 氏名(和/英/ヨミ) |
/ / |
第25著者 所属(和/英) |
(略称: )
(略称: ) |
第26著者 氏名(和/英/ヨミ) |
/ / |
第26著者 所属(和/英) |
(略称: )
(略称: ) |
第27著者 氏名(和/英/ヨミ) |
/ / |
第27著者 所属(和/英) |
(略称: )
(略称: ) |
第28著者 氏名(和/英/ヨミ) |
/ / |
第28著者 所属(和/英) |
(略称: )
(略称: ) |
第29著者 氏名(和/英/ヨミ) |
/ / |
第29著者 所属(和/英) |
(略称: )
(略称: ) |
第30著者 氏名(和/英/ヨミ) |
/ / |
第30著者 所属(和/英) |
(略称: )
(略称: ) |
第31著者 氏名(和/英/ヨミ) |
/ / |
第31著者 所属(和/英) |
(略称: )
(略称: ) |
第32著者 氏名(和/英/ヨミ) |
/ / |
第32著者 所属(和/英) |
(略称: )
(略称: ) |
第33著者 氏名(和/英/ヨミ) |
/ / |
第33著者 所属(和/英) |
(略称: )
(略称: ) |
第34著者 氏名(和/英/ヨミ) |
/ / |
第34著者 所属(和/英) |
(略称: )
(略称: ) |
第35著者 氏名(和/英/ヨミ) |
/ / |
第35著者 所属(和/英) |
(略称: )
(略称: ) |
第36著者 氏名(和/英/ヨミ) |
/ / |
第36著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2020-02-27 14:40:00 |
発表時間 |
15分 |
申込先研究会 |
IEICE-IE |
資料番号 |
|
巻番号(vol) |
vol.44 |
号番号(no) |
|
ページ範囲 |
|
ページ数 |
|
発行日 |
|
|