映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2020-02-27 14:40
ワードスポッティングを用いた古文書における文字の位置推定アルゴリズム
永谷 黎鈴木雅人北越大輔東京高専
抄録 (和) 現在,劣化の進む古文書の保存を目的として,古文書のデータベース化が行われている.専門家が不足しているため解読作業が滞っており,これまでは従来のOCR技術を用いた自動認識の利用も試みられてきた.しかし,古文書の崩し文字は自動で区切るのが困難であるため,すべての文字を手作業または半自動で区切る必要があった.本研究では,同じ単語の文書内での位置を検索するワードスポッティングを用いて,文字の区切りと認識処理を同時に行うことにより,古文書のテキスト化の手間を削減する手法を提案する.提案手法では,平仮名各字種に対して検索を行った結果から位置と字種を確定し,次の検索範囲から除外する処理を付与する.また,処理を各字種の出現頻度や精度によって定められた優先度に従って順番に行う.その結果,文書内から同字種を数ヵ所切り出す作業を繰り返すだけで,一字種毎に数分でテキスト化を行うことが可能となる.複数の資料で精度評価をしたところ,文書内に登場する字数の3~4割程度を正しく検出することができた. 
(英) At present, digitalization of historical documents is carried out to preserve the degraded documents. Digitalization work has been stagnated due to lack of experts; therefore, the traditional OCR technology has been also used. However, all characters of historical documents had to be separated manually or semi-automatically, since it is difficult to automatically separate the connected characters in cursive style. In this paper, we propose a method to reduce the time and effort for making historical documents into text by performing character segmentation and recognition processing simultaneously using Word Spotting. In this method, position and character type are determined from the result of Word Spotting for each character type of Hiragana, and these areas are excluded in the next processing. And, the processing is carried out sequentially according to the priority determined by frequency of appearance and accuracy of each character type. As a result, it is possible to detect the character areas for each character type in a few minutes by specifying several areas of this character in the document. In the experiments on a proposed algorithm, 30 to 40% of characters in some documents can be detected correctly.
キーワード (和) 古文書認識 / ワードスポッティング / DTW / 崩し文字 / / / /  
(英) Historical Document Recognition / Word Spotting / DTW / Cursive Style / / / /  
文献情報 映情学技報
資料番号  
発行日  
ISSN  
PDFダウンロード

研究会情報
研究会 HI IEICE-IE IEICE-ITS MMS ME AIT  
開催期間 2020-02-27 - 2020-02-28 
開催地(和) 北海道大学 
開催地(英) Hokkaido Univ. 
テーマ(和) 画像処理および一般 
テーマ(英) Image Processing, etc. 
講演論文情報の詳細
申込み研究会 IEICE-IE 
会議コード 2020-02-HI-IE-ITS-MMS-ME-AIT 
本文の言語 日本語 
タイトル(和) ワードスポッティングを用いた古文書における文字の位置推定アルゴリズム 
サブタイトル(和)  
タイトル(英) Location estimation algorithm of letter in historical document by using word spotting 
サブタイトル(英)  
キーワード(1)(和/英) 古文書認識 / Historical Document Recognition  
キーワード(2)(和/英) ワードスポッティング / Word Spotting  
キーワード(3)(和/英) DTW / DTW  
キーワード(4)(和/英) 崩し文字 / Cursive Style  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 永谷 黎 / Rei Nagaya / ナガヤ レイ
第1著者 所属(和/英) 東京工業高等専門学校 (略称: 東京高専)
National Institute of Technology, Tokyo College (略称: NITTC)
第2著者 氏名(和/英/ヨミ) 鈴木 雅人 / Masato Suzuki / スズキ マサト
第2著者 所属(和/英) 東京工業高等専門学校 (略称: 東京高専)
National Institute of Technology, Tokyo College (略称: NITTC)
第3著者 氏名(和/英/ヨミ) 北越 大輔 / Daisuke Kitakoshi / キタコシ ダイスケ
第3著者 所属(和/英) 東京工業高等専門学校 (略称: 東京高専)
National Institute of Technology, Tokyo College (略称: NITTC)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2020-02-27 14:40:00 
発表時間 15分 
申込先研究会 IEICE-IE 
資料番号  
巻番号(vol) vol.44 
号番号(no)  
ページ範囲  
ページ数  
発行日  


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会