2022年8月

機械で読めると言う事

2022年8月29日

　コンピュータでデータが読める事をMachine Readableと言います。日本語では機械判読可能などど言います。この場合の機械とは、勿論コンピューターの事です。ただ、このMachine Readableという用語の解釈には色々ある様に思われます。以下、段階に分けて考えてみましょう。

第一の段階小学生レベル	第一の段階としては、機械に何らかの方法で取り込める状態を考えましょう。紙であれは、スキャナーで取り込めますよね。風景もデジタルカメラやスマホなどで取り込めます。でも、一般にこれをもってMachine Readableとは言いません。これは、中身を理解したり、加工して二次利用する事が困難なためです。つまり、Readableとは単に「読める」と言っている訳ではなく、正しく活用できると言う事を期待している訳です。
第二の段階中学生レベル	第二の段階では、言葉が電子データになっている状況を考えましょう。例えば、全てのデータがテキストデータとして小説の様に書かれていたとします。これも一般にはMachine Readableとは言いません。これは書かれている内容がコンピュータには高度過ぎて理解できないためで、ちゃんと処理できるようになっていないデータはMachine Readableとは言わないためです。一般に良く使われている紙を電子化しただけのpdfや、Excel方眼紙と呼ばれる、見栄えを良くするだけのExcel使い方のこの中学生レベルでしょうか。おっと、中学生に失礼でしたね。今どきの中学生はこんなことはしません。昭和の中学生という事にしておきましょう。そういえば、年初に確定申告をしましたが、医療費を登録するExcelの帳票がこのExcel方眼紙でした。一ページに書き込める行数が決まっていて、一枚目と二枚目以降でカラムと項目の対応関係が異なっていましたので、結局手作業でかなりの部分打ちなおしました。
第三の段階高校生レベル	第三の段階では、csv等の様にちゃんと項目別にデータが整然と並べられている状況を考えましょう。この段階になるとMachine Readableと言うかどうかは意見が分かれる様です。政府のGIFなどの記述を見ると、データ交換に使えると言っていますし、自治体もオープンデータなどで活用しているので、Machine Readableと言っても良い状況があるようです。どの様な場合にMachine Readableと言えるかというと、データの作成者と受け手が予め仕様を共有出来る場合です。オープンデータの場合は、発信者がデータとは別に仕様を公開するため、Machine Readableと言っていい状態が生まれるわけです。ただ、二次利用、三次利用とデータが伝達されていくと、この様な状況は薄れていきます。例えば、推奨データセットの情報の中に「建物の座標」と言うデータがあった場合、推奨データセットに基づくオープンデータでは代表点を採用する事になっていますが、色々なデータを繋げたり、データが二次利用、三次利用されていくと、「入り口の場所だったかなぁ」「郵便受けの場所かなぁ」「車止めかも」などと、だんだん曖昧になっていってしまいます。このため、近頃はMachine Readableとは言えないのではないかと考える人も居る様です。特に、データの登録者と参照者が予め特定できないスマートシティでは、Machine Readableとは言いにくいかもしれませんね。
第四の段階大学生レベル	そこで、第四の段階として、Linked Dataの登場となります。json-ldの様に各項目やデータ地をIRI化する事で、曖昧さが生まれる事を排除しようという取り組みです。近頃はMachine Readableというとこの段階を指す事が多い様です。但し、本書の主題であるNGSI-LDでは、IRIという一意となるであろう文字列を使う事にはなっていますが、IRIが実在するかどうかなどはチェックしていません。つまり、住所というデータをやり取りする場合、データ登録者の「住所」の定義と参照者「住所」の定義が同じものを参照したと思われるというところまではチェックしているのですが、その定義が存在するのか、存在したとして定義内容が妥当なのかまではチェックされていない訳です。
第五の段階社会人レベル	第五段階を想像してみましょう。例えば、IRIが指す先に、何等かの規格化されたMachine Readableなデータ定義が集積されている状態です。こうなると、コンピューターが定義に反する使い方をチェックしたり、定義の違いを自動変換するなどの応用が考えられます。本日時点では実装段階の事例を筆者は知りませんが、いずれこの段階に徐々に移っていって欲しいなと妄想しています。例えば、「都道府県名」という項目があったとして、その定義に都道府県名が列挙型メンバとして定義されていれば、広島県を廣島県と書くと、エラーにしてくれたり、自動修正してくれたりするわけです。

IoTとDXは実は同じ?

2022年8月19日

　IoTとDXとは技術的に見ると非常に近い関係にあります。
　一般的にIoTは、Interner of Thingsの略で、センサや電気釜などのデバイスが直接ネットに繋がる事と思われていますが、デバイスをネットに繋ぐだけでは何も起きません。電気釜をネットに繋いでも、テレビを繋いでも、ウェアラブルデバイスを繋いでも、それだけではダメで、ネットの向こうに何らかのサービスが必要です。そのサービスも、繋いでくる相手が数が多く人語を解さないデバイスですから、イチイチ人間様にお伺いを立てるような性能が追いつかないサービスではダメで、自動化率が高いサービスでなければなりません。
　一方でDXも同様です。昨今、「医療現場や保健所が大変だからコロナの全数把握はやめよう」という議論がありますが、あれをDXの視点で解決しようとすると、医療現場でコロナの対応をしているような大きな病院や先進病院では90%近く普及している電子カルテシステムから直接データを収集すれば良いだけです。そうなると、保健所は手間をかける必要はなく、医療現場もデータ収集用のwebやExcelや紙などに転記する必要もなくなります。
　IoTもDXも人を介さずに処理するという見方からすると、以下の通り全く同じなんですね。

人を介さず、machineからmachineへの直接データ連携であること

そのため、データモデルと語彙を共通化し、主体が異なる多数のノードとのデータ交換を実現する事

データは一件一件を送受信し、ファイル転送などのバッチ処理ではない事

生データを収集し、集計は受け手側で目的に応じて行うこと

推奨データセットの功罪

2022年8月20日

　　オープンデータの整備が急務です。そこで、政府は推奨データセットを定めて自治体の後押しをしています。自治体もその要請にこたえ、整備を進めています。ただ、中々利用して貰えないという嘆きも自治体から漏れ聞こえています。どうしてそんなことになるのでしょう。そこで、推奨データセットの特徴を次の表に列挙してみました。

一つひとつのデータセットが独立していて完結している。このため、データの利用が簡単。裏から言うと、データを組み合わせて新たな価値が出来る様には出来ていない。

各データセットは「○○一覧」の様に一括してダウンロードして使いやすい。裏から言うと、一件いっけんのデータを分離して使える様にはなっていない。例えば、一件いっけんのデータには、更新のタイムスタンプが無く、更新をサブスクリプションするような一般的に当たり前のWebAPIの機能を実装する事を想定していない様に思われる。更に言うと、データ件数が多いデータには向かない。

データセットの視認性が高い様に、項目名が日本語になっている。裏から言うと、日本国内専用の仕様になっている

データは基本的に表形式になる様に配慮されている。このため、Excelなどの表計算ソフトに取り込んで利用しやすい。裏から言うと、データ形式が限定され、XMLやJSONの世界では当たり前となっている構造化されたデータ値の格納や繰返しを含む項目は独自仕様で格納されており、コンピューターによる利用を難しくしている。

年に一回など、定期的にデータを入れ替える事を前提としている。裏から言うと、動的なデータや件数自体が変化するデータを想定していない様に思われる。これは、民間にとって大事な「データの鮮度」が提供しにくい構造と思われる。

データの出し手が中央政府や地方政府あることを前提としている。このため、民間のデータと併せて活用する事を難しくしている。

この様に、民間にとっては余り使い勝手が良い設計にはなっていないようで、心配なのは以下の様な弊害でしょう。

オープンデータは無駄な作業との認識が自治体や議会に拡がってしまう

自治体のオープンデータは使えないという認識が民間に拡がってしまう

オープンデータの拡充や改善を行おうと考える先進的な自治体があっても、推奨データセットの流儀に忖度せざるを得ず、手かせ足かせになってしまう

民間が一所懸命オープンデータを活用してアプリなどを作っても、グローバルに出られず長期的には淘汰されて今う

ワンスオンリー

2022年8月27日

　　政府のデジタル原則のひとつにワンスオンリーというものがあります。ワンスオンリーとは政府によると「一度"提出"した情報は、再提出不要」という事なのだそうです。残念ながら、主語も述語もなく、定義は限りなく曖昧です。霞が関では、なるべく狭くせまく捉えている様で、例えばコロナ診療の医者がデジタルカルテシステムに登録済みの情報を保健所向けに再度登録しなおす事は、デジタル原則に抵触しないと考えているようです。また、保健所に向けて登録する情報には患者の住所があるそうですが、当然の事ながら転入届の際に本人が住所を届けていますから行政機関である保健所も住所は把握している筈ですが、医療機関と本人は別だからとでも言うのでしょうか、デジタル原則に抵触しないと考えているようです。
　そう言えば、先日マイナンバーカードの鍵の更新のために市役所に出頭したら、フォトIDであるマイナンバーカードを提示しているにも関わらず本人確認のために名前と住所を用紙に記入しろと言われました。きっと本人確認は"提出"ではないからデジタル原則とは関係ないと言い張るのでしょうねぇ。
　日本が先進国になる日はいつになったら来るのでしょうか。

Column

2022年8月

　2022年8月