テキストデータ化のすすめ

前のページに戻る

 

今時マルチメディアなどという言葉を使う人も少ないでしょうが、昨今

パソコンのマルチメディア化により我々が扱うデジタルデータは多種多様

なものになっています。

画像データ、音声データなど数えあげればきりがないほど広範囲にわたって

います。

もしこれらのデータをテキスト化することができればどれほど便利な使い方

ができるでしょうか。

私は漠然とそんなことを考えております。

なぜそんなこと考え始めたかというと、テキスト化されていないデータは、

検索などをするのに非常に手間がかかるからです。例えばパソコンファクス

に相手方から送られてくる画像フォーマットは画像データなのですが、通常

であればこの画像データの中の特定の言葉「おいしい」という言葉が含まれ

ていても、そのデータはあくまでも画像データですのでテキストベースでは

検索ができません。

メール全盛のご時世とはいえ、まだまだファクシミリの活躍する場面も幅広く

残されており、我々が受け取る情報もすべてメール1本でというわけにはま

いりません。

1日に何十枚もファクシミリを受け取る人が、ファクシミリ現行の中から特定の

言葉を検索するというようなことは、ファクシミリ原稿をOCR処理をして、テキ

ストデータ化をしなければ、検索することは出来ません。

 

次に音声データのことを考えてみてください。ViaVoiceという音声入力ソフト

をご存じですか。これはキーボードを打つ代わりに日本語で話し言葉をマイ

クに向かって話せば、自動的にテキスト変換をして文章の入力ができるソフト

です。このように音声データがテキストデータとして取り込めるのであれば、自

分と他人との過去の電話記録の中から、特定の「単語」を含んだ会話を検索

することが可能です。これは考えてみると恐ろしいくらいのポテンシャルを秘めた、

これぞコンピュータというべきシステムであると考えます。



通信傍受との兼ね合いがありますので必ずしもよいこととは言えないかもしれ

ませんが、

イギリスでは電話による通話はすべてデジタルデータとしてコンピューターを

経由でデータ送受信が行われ、その音声データはどこかでコピーされていて

コンピューター処理によりテキスト化され巨大なデータベースとして保存され

ているそうです。従ってこのテキストのデータベースの中から特定の単語、例

えば「麻薬」をキーワードにして検索をすれば「麻薬の密輸」、「麻薬の製造」、

「麻薬の取引」、「麻薬の売人」などの麻薬という言葉が含まれた会話すべて

が、ピックアップされ、誰と誰との間の通話であるとか何時何分にかけた通話

であるとかいう附属情報も含めて表示することができるので、犯罪捜査に非常

に有効であるという話を聞いたことがあります。

 

プライバシーの侵害という問題を除けば、このシステムは素晴らしいものだと

思います。

私たちが生きている社会では、ありとあらゆることが起き、消えていく。これを

全てデータベース化することが出来れば、全世界で起こっていることがキー

ワード一つで検索できるようになるわけです。

実際にはまだ実用化されているわけではありませんが、こんな使い方ができ

たら楽しいのではないかと考えているものがあります。

私たちはよくデジカメを使って写真を撮ってきます。そしてそれをひとつの

Folderにまとめて時系列で保管していることが多いと思います。日数がた

つにつれどんどん写真が増えて、ついにはイベントのあった年月日すら忘

れ去られてしまったとき、急にその中から1枚の写真を探し出さなければな

らなくなったとき、どのように探すのでしょう。イベントの起こった年月日すら

忘却のかなたに行って去ってしまったということになるともう最後は

手当たり次第にファイルを開いて目的の写真を探すしかありませんね。

こんな時、「気が遠くなるほど美しい青空と白い雲、夏の太陽に輝くローマ

で撮ったスナップ写真」というようなテキストを入力して検索をかけたら、そ

れにぴったり当てはまる写真を探し出してくれるようなソフトが出来たらなん

て素敵なんだろうと思います。

これはコンピューターをよく知らない人間の戯言でしたすみません。

 

引き続きまして、

画像データからテキストデータを作成するためには、OCRソフトを使います。

OCRソフトは今から10年くらい前は、まだまだ特殊なソフトで結構高価な代

物でありました。

しかし、スキャナーが一般的なユーザに利用されるようになったるに連れて、

そのバンドルソフトとしてCCRソフト提供されるようになってから、製品版も

ずいぶんと安くなりました。昔は最低の機能をいれたものが4万円くらいして

いましたし、高度な機能が搭載されたものが10万円程度していましたので、

なかなか手が出せるものではありませんでした。認識率にもよりますが、ちょっと

した文章であれば手で入力した方が早いということもありました。

OCRソフトは、読みとった画像中の、ある形をした図形をどのような文字とし

て認識するかというデータベースを持っているわけですが、このデータベー

ス(辞書というらしい)を大事にメンテナンスしてやることによって、認識率を

どんどん上げることが出来ます。

読みとる文書が決まったフォーマットで出力されていて、使用されるフォン

トが常に同じであれば、98パーセント近くの認識が出来ると聞いています。

知り合いにエプソンの安いスキャナーを使って、会社の登記簿謄本の読み

込みを行なっている人がいますが、その人のメンテナンスした辞書はその

スキャナーと会社の登記簿謄本のフォーマットを使う限り、99パーセント

以上の変換精度を持っています。