テキストデータ化の勧め

テキストデータ化のすすめその２と雑談

高性能OCRソフトと変換辞書を手に入れるためには

画像データからテキストデータを作成するためには、OCRソフトを使います。

OCRソフトは今から１０年くらい前は、まだまだ特殊なソフトで結構高価な

代物でありました。

しかし、スキャナーが一般的なユーザに利用されるようになったるに連れて、

そのバンドルソフトとしてCCRソフト提供されるようになってから、製品版も

ずいぶんと安くなりました。昔は最低の機能をいれたものが４万円くらいして

いましたし、高度な機能が搭載されたものが１０万円程度していましたので、

なかなか手が出せるものではありませんでした。認識率にもよりますが、ちょ

っとした文章であれば手で入力した方が早いということもありました。

OCRソフトは、読みとった画像中の、ある形をした図形をどのような文字と

して認識するかというデータベースを持っているわけですが、このデータ

ベース（辞書というらしい）を大事にメンテナンスしてやることによって、認識

率をどんどん上げることが出来ます。

読みとる文書が決まったフォーマットで出力されていて、使用されるフォント

が常に同じであれば、９８パーセント近くの認識が出来ると聞いています。知

り合いにエプソンの安いスキャナーを使って、会社の登記簿謄本の読み込み

を行なっている人がいますが、その人のメンテナンスした辞書はそのスキャ

ナーと会社の登記簿謄本のフォーマットを使う限り、９９パーセント以上の変換

精度を持っています。

手っ取り早く高精度のＯＣＲソフトを使いたいのであれば、上記のように高精

度の辞書を持っている先駆者に一杯ごちそうして、その人から辞書を譲って

もらい、その人と同じスキャナを購入して、さらに同じＯＣＲソフトを利用するこ

とが1番の早道です。

さて今度は全く異なった観点からのアプローチになりますが、電子認証の世界

ではハッシュ関数とかハッシュ値という言葉を使います。

ハッシュ関数とはある数値から一定の大きさを持つ数値を作成するための一方

向性の不可逆関数で生成さるハッシュ値は大きさは常に特定のビット数ですが

その値はもとになる数値がちょっとでも変われば大変化を起こします。

この性質を利用して電子認証の世界では平文に添付されたハッシュ値と平文を

受信した者が

作成したハッシュ値とを比べて、ハッシュ値が同じであれば送信者から送信され

た平文が改ざんされていないものであることを確認するのです。

私はよくわからないのですけれどもこのハッシュ関数を利用していると思われる

のですが、内容が全く同一のファイルを検索してリストアップするソフトウエアが

存在します。仕事などで作成中の文章を喪失することを避けるためにバックアッ

プの意味を含めて作業途中で、ファイルを保存しながら入力作業を継続し、そ

ういうことを何度も繰り返すことがあります。何度かそういうことをやっているうちに

どれが最新のファイルとして残さなければならないものであり、またどれが捨てる

べきファイルであるのかをはっきり取捨選択しなければならないことがあります。

重複ファイル検索ソフトはそういう状況に陥ったときに大いにわれわれを助けて

くれます。私は　UnDup　というソフトを使わせていただいておりますが、大変に

使いやすくて満足しています。