講演抄録/キーワード |
講演名 |
2010-02-27 13:30
画像マッチングに基づく類似文書間の変更点検出について ○鈴木裕美子・仲野 豊・吉田俊之(福井大) |
抄録 |
(和) |
一般に,定期的に内容が改訂される文書の多くは,定型の下に一部の項目のみが変更されることが多く,旧版との変更点,相違点の自動検出が必要となる場合がある.本研究では,印刷物として提供された類似文書を比較して,変更点を検出する自動化アルゴリズムの構築を目的とする.その最も簡単な手法としてOCRを用いる手法が挙げられるが,現状のOCRの認識率では誤認識が多く,十分な比較結果を得ることは難しい.そこで本研究では,文書を画像として扱い,画像マッチングと最長一致系列の抽出に基づいて類似文書を比較する手法を提案し,その精度と処理時間について検討を行った.実験の結果,A4サイズ1枚で日本語約1500文字程度を含む文書を比較する際,実行時間として数十秒程度,検出精度として再現率100%の下で精度94%程度の検出率を得られた. |
(英) |
Some of documents, which have a fixed format and are updated periodically, are often modified very partially, producing very similar documents before and after the modification. This paper aims at an automatic comparison and detection for such modifications in a pair of similar and printed documents. Although the simplest way for identifying such a modification is an application of an OCR system, the recognition ratio of many of current OCR systems is around 97% and is too low to obtain sufficient precision in our comparison application. This paper therefore treats a pair of target documents as images, and proposes an image-based comparison technique by using an image matching and a detection of the longest common sequences. Experimental results given in this paper illustrate that the proposed technique requires several ten seconds for a comparison of a pair of A4 size documents with 1500 Japanese characters, and gives a precision rate of 94% with a recall rate of 100%. |
キーワード |
(和) |
文書処理 / 文字比較 / 変更点検出 / マッチング / 最長一致系列 / / / |
(英) |
document processing / character comparison / modification detection / matching / longest common sequence / / / |
文献情報 |
映情学技報, vol. 34, no. 10, ME2010-64, pp. 61-64, 2010年2月. |
資料番号 |
ME2010-64 |
発行日 |
2010-02-20 (ME) |
ISSN |
Print edition: ISSN 1342-6893 |
PDFダウンロード |
|
研究会情報 |
研究会 |
ME |
開催期間 |
2010-02-27 - 2010-02-27 |
開催地(和) |
関東学院大学 関内メディアセンター |
開催地(英) |
Kanto Gakuin Univ. |
テーマ(和) |
学生研究発表会 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2010-02-ME |
本文の言語 |
日本語 |
タイトル(和) |
画像マッチングに基づく類似文書間の変更点検出について |
サブタイトル(和) |
|
タイトル(英) |
Difference detection for similar documents based on image matching |
サブタイトル(英) |
|
キーワード(1)(和/英) |
文書処理 / document processing |
キーワード(2)(和/英) |
文字比較 / character comparison |
キーワード(3)(和/英) |
変更点検出 / modification detection |
キーワード(4)(和/英) |
マッチング / matching |
キーワード(5)(和/英) |
最長一致系列 / longest common sequence |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
鈴木 裕美子 / Yumiko Susuki / ススキ ユミコ |
第1著者 所属(和/英) |
福井大学 (略称: 福井大)
University of Fukui (略称: Fukui Univ.) |
第2著者 氏名(和/英/ヨミ) |
仲野 豊 / Yutaka Nakano / ナカノ ユタカ |
第2著者 所属(和/英) |
福井大学 (略称: 福井大)
University of Fukui (略称: Fukui Univ.) |
第3著者 氏名(和/英/ヨミ) |
吉田 俊之 / Toshiyuki Yoshida / |
第3著者 所属(和/英) |
福井大学 (略称: 福井大)
University of Fukui (略称: Fukui Univ.) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2010-02-27 13:30:00 |
発表時間 |
15分 |
申込先研究会 |
ME |
資料番号 |
ME2010-64 |
巻番号(vol) |
vol.34 |
号番号(no) |
no.10 |
ページ範囲 |
pp.61-64 |
ページ数 |
4 |
発行日 |
2010-02-20 (ME) |