第一の段階
小学生レベル |
第一の段階としては、機械に何らかの方法で取り込める状態を考えましょう。紙であれは、スキャナーで取り込めますよね。風景もデジタルカメラやスマホなどで取り込めます。でも、一般にこれをもってMachine Readableとは言いません。これは、中身を理解したり、加工して二次利用する事が困難なためです。つまり、Readableとは単に「読める」と言っている訳ではなく、正しく活用できると言う事を期待している訳です。 |
第二の段階
中学生レベル |
第二の段階では、言葉が電子データになっている状況を考えましょう。例えば、全てのデータがテキストデータとして小説の様に書かれていたとします。これも一般にはMachine Readableとは言いません。これは書かれている内容がコンピュータには高度過ぎて理解できないためで、ちゃんと処理できるようになっていないデータはMachine Readableとは言わないためです。一般に良く使われている紙を電子化しただけのpdfや、Excel方眼紙と呼ばれる、見栄えを良くするだけのExcel使い方のこの中学生レベルでしょうか。おっと、中学生に失礼でしたね。今どきの中学生はこんなことはしません。昭和の中学生という事にしておきましょう。
そういえば、年初に確定申告をしましたが、医療費を登録するExcelの帳票がこのExcel方眼紙でした。一ページに書き込める行数が決まっていて、一枚目と二枚目以降でカラムと項目の対応関係が異なっていましたので、結局手作業でかなりの部分打ちなおしました。 |
第三の段階
高校生レベル |
第三の段階では、csv等の様にちゃんと項目別にデータが整然と並べられている状況を考えましょう。この段階になるとMachine Readableと言うかどうかは意見が分かれる様です。政府のGIFなどの記述を見ると、データ交換に使えると言っていますし、自治体もオープンデータなどで活用しているので、Machine Readableと言っても良い状況があるようです。どの様な場合にMachine Readableと言えるかというと、データの作成者と受け手が予め仕様を共有出来る場合です。オープンデータの場合は、発信者がデータとは別に仕様を公開するため、Machine Readableと言っていい状態が生まれるわけです。ただ、二次利用、三次利用とデータが伝達されていくと、この様な状況は薄れていきます。例えば、推奨データセットの情報の中に「建物の座標」と言うデータがあった場合、推奨データセットに基づくオープンデータでは代表点を採用する事になっていますが、色々なデータを繋げたり、データが二次利用、三次利用されていくと、「入り口の場所だったかなぁ」「郵便受けの場所かなぁ」「車止めかも」などと、だんだん曖昧になっていってしまいます。このため、近頃はMachine Readableとは言えないのではないかと考える人も居る様です。特に、データの登録者と参照者が予め特定できないスマートシティでは、Machine Readableとは言いにくいかもしれませんね。 |
第四の段階
大学生レベル |
そこで、第四の段階として、Linked Dataの登場となります。json-ldの様に各項目やデータ地をIRI化する事で、曖昧さが生まれる事を排除しようという取り組みです。近頃はMachine Readableというとこの段階を指す事が多い様です。但し、本書の主題であるNGSI-LDでは、IRIという一意となるであろう文字列を使う事にはなっていますが、IRIが実在するかどうかなどはチェックしていません。つまり、住所というデータをやり取りする場合、データ登録者の「住所」の定義と参照者「住所」の定義が同じものを参照したと思われるというところまではチェックしているのですが、その定義が存在するのか、存在したとして定義内容が妥当なのかまではチェックされていない訳です。 |
第五の段階
社会人レベル |
第五段階を想像してみましょう。例えば、IRIが指す先に、何等かの規格化されたMachine Readableなデータ定義が集積されている状態です。こうなると、コンピューターが定義に反する使い方をチェックしたり、定義の違いを自動変換するなどの応用が考えられます。本日時点では実装段階の事例を筆者は知りませんが、いずれこの段階に徐々に移っていって欲しいなと妄想しています。例えば、「都道府県名」という項目があったとして、その定義に都道府県名が列挙型メンバとして定義されていれば、広島県を廣島県と書くと、エラーにしてくれたり、自動修正してくれたりするわけです。 |