|
|
TEI J16 のメモ
【 訳 < メモ 】
1998.9.12 ※ 目次に番号を付けた。 ※ 「 TEI 入門としては、やや古い。」 ( Wendy Plotkin 『 TEI のチュートリアルと紹介』 1998.5.29) http://www.uic.edu/orgs/tei/intros/index.html |
|
1 背景 付録A ヴァッサー会議の結語 2 TEI の目標 付録B TEI ガイドラインの概観 3 組織 付録C TEI 編集者 4 TEI ガイドライン案の起草 5 第2次の活動 6 基本構文 SGML 7 TEI ガイドライン 8 TEI の参考資料 9 今後の計画 10 最終目標:ユーザに受け容れられること 11 謝辞 |
|
TEI 概要( TEI J 16 )
S. ホッケイ ( Susan Hockey )
1996.2.1 TEI J 16: The ACH/ACL/ALLC Text Encoding Initiative: An Overview http://www.uic.edu/orgs/tei/info/teij16.html テキスト・エンコーディング・イニシアチブ ( TEI ) は、コンピュータと人文学のための学会 ( ACH ) ・コンピュータ言語学学会 ( ACL ) ・文学語学コンピューティング学会 ( ALLC ) の共同支援による大規模な国際的プロジェクトである。その任務は、研究者間で機械可読テキストを交換・流通するためのガイドラインを作成・公刊することと、これからテキストをコーディングする際の勧告案を作成することにある。6年以上の開発期間にわたって、合衆国国立人文基金と欧州共同体(と今日では呼んでいるが)委員会の第 13 回合同理事会、及びアンドルー・W・メロン財団よりおよそ 100 万ドルの資金供与を受けた。 TEI は、プロジェクト参加者の所属機関からも間接的に物的援助を受けている。 |
|
1 背景共通マークアップ方式の必要性テキスト・データは、もう30年以上も分析ないし処理されてきた。しかし、現在に至るまで研究用の機械可読テキストに共通するコーディング方式はまったくない。研究者たちは、電子テキストの典拠や記録についてだけでなく、標準にない文字・脚注・欄外注・本文研究資料等の表し方、テキストの論理的区分(書物・章・韻文)のコーディング、本文に関連した分析・解釈の情報(構造論・形態論・意味論等に基づく分析)等を表すのにさまざま異なった方式を編み出してきた。 現在のコーディング方式の中で、標準として受け入れられているものはない。たいてい開発者の関心を反映し、ただ1つの主題領域にのみ当てはまる底のものである。中には、アーヴァイン・ギリシア語シソーラス( the Thesaurus Linguae Graecae at Irvine )やイスラエルのバー・イラン・リスポンサ計画( the Responsa Project at Bar-Ilan )、 OCP や WatCon といったテキスト分析ソフトウェアの入力仕様書の類もあれば、あるいはまた自分自身の計画のためにまったくの個人が案出するものもある。アプリケーションと関心領域の全範囲にわたるテキスト・コーディング方法で、十分柔軟でどの場合にも使えるようなものはない。コーディングの実行に当たっては貧弱なマニュアルしかなく、1つのフォーマットから他のフォーマットへ変換するプログラムを書くのに大変な時間を費してきた。 研究調査の需要に合せて開発した共通テキスト・コーディング方式は、これらの問題の多くを取り除き、最小限のものに抑えてきた。また、新たにソフトを開発する者が起点として使用できるテキスト・フォーマットを提供してきたのだ。 企画会議TEI はヴァッサー・カレッジ ( Vassar College ) の ACH (コンピュータと人文学のための学会 the Association for Computers and the Humanities ) によって 1987 年 11 月 12、13 日、ニューヨークのポーキプシー ( Poughkeepsie ) で招集された企画会議から生まれた。それに先立っていくつかの会議はあったが、問題点は明らかになっても、解決策を見出すための確かな決議には至らなかった。この会議には各地の大学や有識者から 31 人の専門家と、北米や欧州、イスラエル、日本のテキスト・アーカイヴ代表者たちが、機械可読テキストのコーディングのための共通のガイドラインを作ることの有望性、可能性と基本原則について議論しあった。この会議で確かな合意がとれたのは、そのような共通の枠組みが必要かつ有効なことについてである。メンバーはテキストのコーディングに関する一連のガイドラインの適用範囲と機構を統御するいくつかの基本原則について合意した。これらの原則は、付録Aに述べてあり、「ポーキプシーの原則」として知られるようになった。 この合意には、成立の鍵となる3つの要因がある。
ここで新たになされた合意は、機械可読テキストの作成・交換に対する要求がますます強まっていることをも反映している。ヴァッサー会議では、現状が「混沌」であることに何度か触れていた。 2 TEI の目標ヴァッサー・カレッジでは、この計画のために3つの包括的な目標を決めた。
3 組織作業部会 テキスト解題部会 テキスト表示部会 テキスト分析・解釈部会 メタ言語・構文問題部会 運営委員会ヴァッサー会議に続いて、 ACL と ALLC は ACH と共に各々2名の代表をもってプロジェクト運営委員会を作った。同委員会は、資金を募り、プロジェクトの進行を監視する。およそ3か月に1度会合を開き、その間は電子メールで実務を指揮する。委員長は、各学会の持ち回りで務める。 委員会の最初の任務は、プロジェクトの骨格を作り、実行に必要な資金を募ることだった。初期の財源は、1988年 6月から2年間(第1次)、 NEH より得、次の2年の積立期間を見越して着手した。以下に略説するプロジェクトの骨格は、1988年末までには固まった。 参加組織−諮問委員会プロジェクトの諮問委員会に 15 の学術団体が代表を送り、 TEI に加わっている。同委員会のメンバーは、各々の組織と作業部会とのパイプ役となり、進捗状況の報告や試案を組織で回覧する。諮問委員会は、1989年 2月に作業日程表を批准するために開かれ、1993年 6月にはガイドラインを検討するために再度開かれた。 編集委員2人の編集委員が作業の調整を図り、 TEI ガイドラインを設計する任に当たった。2人は TEI 各部会の活動の足並みを揃え、毎日のようにくる問い合わせに対応して TEI 事務局員の役割を果たしたうえ、最終文書を検討・編集し、さまざまな部会の成果に一貫性をもたせて全体をまとめあげた。彼らはシカゴとオックスフォードを根城としている。 作業部会TEI ガイドラインは、研究者集団からの志願者によって開発された。企画会議で最初に取り上げられた区別に従い(付録A−6を参照)、広く分割された研究領域から抜擢された部員から成る4つの作業部会が設けられた。 テキスト解題部会この部会が担当したのは、図書館司書とアーカイブ管理者の専門的知識を備え、電子テキストそれ自身と原文についての情報、また両者の関係についての情報について、その分類コードをファイル内に埋め込むことによってテキストの区分を示す問題を扱うことである。 テキスト表示部会この部会は、機械可読形式で表示することの問題点を扱った。すなわち、文字コード・テキストの論理構造・レイアウト、その他原典で形の違いとして現れている特徴などである。同部会は最初に文字コードの扱い方に関する勧告をまとめ、散文テキストがとる形式のほとんどに共通する特徴をコーディングする基本ルールを提示した。 テキスト分析・解釈部会この部会の仕事は、分析的手続きを規則によって支えられたものにするために適切な規則専用のタグ・セットを作ることである。ただし、他の規則への拡張や一般化も可能なものでなければならない。初期の作業は語学的分析を中心としており、分析的特徴のコーディングについて、どんな学説にも依拠しない有効な仕組みを開発した。また辞書のコーディングについても、この成果に立って小委員会が行った。 メタ言語・構文問題部会この委員会は、形式言語理論の専門技術を備え、 TEI のコーディング言語として SGML が推奨できるとの結論を早々にまとめた。そして SGML を活用する方法についての勧告をまとめ、 TEI に適応するのに必要な変更点を挙げ、 TEI と他のコーディング方式との変換の問題を取り上げた。 4 TEI ガイドライン案の起草第1次の課題は、各作業部会の成果をまとめて TEI ガイドラインの最初の草稿を作ることだった。編集委員は最初に、各部会用に全体方針をやや詳しくまとめた文書を用意した。部会の作業は、それ以後最終勧告案をまとめるまで、時々顔合わせはしながらほとんど電子メールによって行われた。第1次開発期の末には、編集委員は TEI ガイドラインの第1草稿( TEI P1 、以下「 P1 」と略す。)をまとめあげることができた。[C.M. Sperberg-McQueen and Lou Burnard, ed., Guidelines For Electronic Text Encoding and Interchange (TEI P1), Chicago and Oxford Text Encoding Initiative, May, 1990] 各作業部会の勧告案を組み入れた、約300ページに及ぶ文書である。これは、第1次末の 1990年夏に公開されたが、現在では TEI P3 (次節参照)がこれに代わった。7節では、ガイドラインの背景となる原理を述べる。 5 第2次の活動1990年 6月に始まった第2次開発期のための資金も得られ、運営委員会は今期の作業の組織化について多少の付加を行うことが可能になった。ガイドラインの第1草稿ではいくつかの論題は概略を示すのみに終わっている。寄せられたコメントに鑑みて改訂を必要とするものもあり、全く省略されたものもあった。第2次の主要目的は、ガイドラインを実地に試し、ユーザのコメントに照らして適用範囲を拡張することである。最終文書は、第2次末の 1994年 5月に公刊された。 [C.M. Sperberg-McQueen and Lou Burnard, ed., Guidelines For Electronic Text Encoding and Interchange (TEI P3), Chicago and Oxford. Text Encoding Initiative, May, 1994] 作業グループ第1次の作業は、 TEI ガイドラインの中核的(コア)要件、すなわち、ほとんどのテキスト形式に共通する特徴をコーディングすることに集中した。第2次の期間には、 TEI の創設した小規模ながら目的を絞ったいくつかの作業グループによって特定の領域を提示した。作業グループはそれぞれの領域において、すでに十分定義されている領域では直接的に勧告を行い、または間接的に問題領域の概要を示したり、作業グループを分ける必要を提案したりした。どの作業グループも特別の費用を割り当てられ、期限ぎりぎりまで作業した。全部で1ダースほどもあるグループが設けられた。そのテーマは、文字コード・本文批判・ハイパーテキストとハイパーメディア・数式と表・言語別コーパス・原稿の物理的体裁の記述・分析的書誌・一般言語学・会話文・文学研究・歴史研究・機械可読辞書とコンピュータ語彙集等にわたる。 各グループは、作業が主としてテキスト表示とテキスト分析・解釈のいずれに関わるかによって、公式には TEI のこの2つの作業部会に所属した。この部会が各グループの成果の検討・支持を行った。 連合プロジェクトTEI は、機械可読テキストの作成・維持に関係する他のプロジェクトと協定を結んだ。各プロジェクトは異なった規則をもつ領域の代表となるように選ばれた。どれも、 TEI ガイドラインに従って自己のデータからサンプルを選んでマークアップを行い、テストした結果を TEI に報告した。各プロジェクトには、コーディングと報告書作成のために TEI のコンサルタントを割り当てた。連合プロジェクトのための研究会は 1991年 7月に開かれた。この研究会を通して、連合プロジェクトのスタッフは TEI ガイドラインをより深く学び、コンサルタントはそれぞれ配属されたプロジェクトの仕事になじむことができた。 6 基本構文 SGML新たにテキストをコーディングする方式の構文的基盤を何にするかは、準備会議の段階では決定していなかった。出席者はみな、できれば構文はすでに存在する方式から借りてくるのがよいとする点で一致していた。構文は比較的簡単で、しかも細かな違いやテキストに応じてときに複雑に交錯する階層構造をも表現することができ、既定のタグのほかにユーザ定義による拡張も許すものでなければならない。最有力候補視されたのが標準汎用マークアップ言語 SGML (the Standard Generalized Markup Language ) だ。 SGML をモデルとした構文に基づいて作業を始めること、研究需要を満たすのに不十分だった場合に限って SGML をやめることが決まった。 SGML はまもなく TEI の要求にかなうことが明らかになったが、ただ一つ、互いに相容れない複数の階層構造を取り扱う必要だけが問題領域として残った。それは SGML 構文では、 SGML 対応ソフトウェアでサポートされているものがあまりない特性によってしか処理できないのである。 SGML 自体はコーディング方式ではなく、コーディング方式(タグ・セット)を開発できる枠組みといえる。同じテキストに、複数のタグ・セットを使うことができるので、 SGML に基づいたコーディング方式なら基本的なテキストの特徴をタグ付けする方針が相違しても容易に対応できる。 SGML はデバイスに依存せず、対応ソフトウェアを開発するベンダーも増える一方である。これなら、電子的表現の対象となる自然言語をすべて扱えるうえ、設計のそもそもからアプリケーションに依存しない。このことはつまり、たとえばワードプロセッサや研究目的の分析機能にも同じテキストを基盤として使えることになるわけである。 7 TEI ガイドラインガイドラインの機能は、どのような特徴をコーディングすべきか、それらの特徴はどのように表すべきかを示すことである。テキストの形態は多様なので、完全な必要条件を表した一つの方式がすべてのテキストやその利用目的に当てはまるわけではなく、最小限度の特徴だけをコーディングすることが極めて望ましい。よくあるタイプのテキスト分析では、研究対象にとりあげたテキストの特徴は研究者の理論的志向によって大きく変化する。研究を行うには、特定の規則やテキスト形式(たとえば、字句解析・本文批判・主題研究等)に関連したテキストの特徴を定義し、それぞれの特徴を表す手法を示す必要がある。広範なテキスト形式を扱う TEI のやり方は、どのテキストにも共通する比較的少数の特徴を定義する試みであり、より特殊な面についてはユーザ定義のタグ・セットを組み合わせて使えるようにしようというものなのである。 TEI はガイドラインの開発にあたって「ポーキプシーの原則」に従った。これは、 TEI P1 (第1版)で拡張され、「テキスト・コーディングのガイドライン設計原則」となった。その主な点をここに要約する。 ガイドラインは、次の設計目標を満たすものとする。
ガイドラインは以下の点についてはっきりした特長をもつものとする。
ガイドラインは、テキスト資料に基づいた規則によるどのような作業もサポートする。初めに、興味を引くテキストの特徴をとらえ、辞書学 ( lexicography ) 、主題論・韻律論・文体論的な研究、史的整理・編集、計量言語学、内容分析等、ごく当たり前にコンピュータを使うこれらの規則に合わせてコーディングすることに努める。規則に関連した作業は、まず言語学的問題に専念し、後で文学的ないし歴史的研究にまで範囲を広げた。 SGML の基本原理と(テキストの)再利用性への要望に従って、ガイドラインは手続き的なマーク付けではなく記述的なマーク付けを基本としている。可能な限り、マーク付けのタグはテキストの表現と切り離して、構造的その他根本的な特徴を記述する。しかし、規則によっては、それが主要な関心の対象であるか、外観の意味に関する何の共通理解もないという理由で、原文の外形的特徴が重要となる。したがって、外形的特徴を表すタグも、マーク付けの本来の目的が単に原文の外観を忠実に再現するだけのものでないことに注意したうえで用意されている。 ただし、ガイドラインを実地に適用する経験を積むにつれ、ガイドラインは洗練され、拡張されるということは強調しておかなくてはならない。研究者の要求は絶えず変化するため、研究目的のコーディング方式はどれも絶対に完璧とか決定版とかいうことはありえないのだ。 ガイドラインの内容の詳細については、付録Bで見ることができる。 8 TEI の参考資料TEI には電子掲示板 ( TEI-L ) があり、 TEI に関するニュースが投函され、 TEI ガイドラインについての詳しい討議を行うためのフォーラムもある。ここに入るには、「 SUBSCRIBE TEI-L 」とだけ書いて「 LISTSERV@UICVM 」(bitnet) か「 LISTSERV@UICVM.UIC.EDU 」(インターネット)に電子メールを送ればよい。 TEI にはまた、シカゴに文書記録があり、 TEI に関連した作業文書・報告書・出版物すべてに関する情報を保管している。可能な場所ならどこであっても、広く一般の関心を引く最終報告書は誰にでも利用できるものにしようと努めている。文書は、 LISTSERV のファイル・サーバ機構を使って入手できる。現在利用できるものを見つけるには、「 LISTSERV@UICVM 」(bitnet) か「 LISTSERV@UICVM.UIC.EDU 」(インターネット)に「 GET TEI-L FILELIST 」という1行を含むメールを送ればよい。 9 今後の計画練習教材 ソフトウェア 他の文書 既存のアーカイブの変換 TEI ガイドラインの技術的仕様が出来上がったので、 TEI の中心はよりユーザビリティ(使い勝手)の問題、ユーザ教育、ガイドラインの普及活動に移行していくことだろう。 出版物TEI のコーディング方式は、ガイドライン自身によって公式に定義されているが、ただ1冊の大部のマニュアルだけでは実際的要求に対して十分でないのは明らかだ。チュートリアルはもちろん、 TEI の基本的な枠組みと原理を述べた簡潔な入門書、 TEI 方式でコーディングしたテキストの実例なども必要になってくる。これを書いている現在、そうした入門書やチュートリアルをまとめる作業に進んでいる。 フィードバックガイドラインは開発期間中、提案内容についてあたうかぎり広範な議論を喚起することを願って、まことに不完全な状態のドラフト(草稿)の形のまま利用できるようにした。ガイドラインは公式に出版してからも、 TEI はコメントと提案を求めている。 TEI は提案内容に関するどんなコメントにも答え、要点を述べることを約束している。 メンテナンススポンサーとなった組織は、ガイドラインを出版した後も、これを実施した経験をもとに改訂し、拡張する仕組みを与えることで一致している。この共同メンテナンスの仕組みによって更新と改訂が行われるはずである。ガイドラインの認可と出版を行った以上、スポンサーとなる組織がガイドラインを国家的ないし国際的な標準として採用するよう求めることが結局は適当であろう。 練習教材TEI は教育研究会を何度か催してきた。この研究会により、練習教材として使える情報の基本が定まり、ユーザからのフィードバックを得る別の手だてともなった。時が経つにつれ、この練習教材の内容は固まっていくだろう。より多くの人が練習を行えるようにし、自習教材も利用できるようにしていくことが望まれる。 人によって練習方法は異なったものでなければならないというのは、すでに自明のことである。コンピュータ科学者の理解しやすいことあ人文学者にとって易しいとは限らず、その反対も同様である。 TEI ガイドラインは両者にとって重要で、だからこそ知識を理解させる方法はユーザのタイプに合わせる必要がある。 ソフトウェアTEI SGML を取り扱うソフトウェアの需要はますます高まってきている。著名なパッケージ・ソフトのように振る舞いながら、しかも SGML による新たな可能性も利用できるようなシステムへの要望が多いようだ。第1段階として、 TEI のコーディング方式を、ふだん使っているアプリケーション・プログラムの要求するコーディング方式に変換し、他の方向に変換し直すプログラムが必要だ。共同体専用のソフトウェアを書くためには、 TEI 文書を読んで理解でき、しかも個人またはプロジェクトが開発するソフトウェアに組み入れることのできるルーチン( TEI パーサ)を広く利用できることが必要だ。共同体全体でのコーディング方式の使い勝手にとって同じくらい重要なのは、 TEI 対応のデータ入力を行うソフトウェア、すなわち SGML によって構造化されたリッチ・テキストを利用できるエディタやワードプロセッサ、 TEI タグをわずかなキー操作でテキストに入力できる簡単なルーチン、 TEI の推奨する形式で新たにテキストを作るのに役立つツール等である。 これらのいくつかに近いソフトウェアにはすでに利用できるものもあるが、人文学者がもっともよく使う機械、つまり IBM PC やマッキントッシュで使えるツールを安価に、しかもすでに使われているソフトウェアに組み込めるようなやり方で供給するという現実の需要は依然としてある。 他の文書メタ言語部会は「 TEI 準拠」という概念のより明快な定義も用意した。それは、 TEI 準拠のソフトウェアを開発しようとする者によって求められていたものだ。 TEI 作業文書の中には、出版に適したものもある。 既存のアーカイブの変換既存のアーカイブは過去の資産との一貫性を保つ必要があるのだから、これに新規のテキスト用の方式を使うことを期待するのは不合理な話なのだが、それにもかかわらずヴァッサー会議に臨んだテキスト・アーカイブ作成者たちは、データ交換・流通のための共通フォーマットが早急に必要であることを理解した。そういうフォーマットを採用すれば、それぞれのアーカイブは、テキストを他のユーザに送る前に、現在のデータ・フォーマットを共通の交換フォーマットに変換し、入ってくるテキストを共通交換フォーマットからそれぞれのフォーマットに変換するためのソフトウェアを書けるからだ。 もうしばらくすれば、ガイドラインがもっと広く使われたとき、アーカイブの中に TEI 方式に変換することを望むものが出てくることもあり得る。既存の方式と TEI 方式を形式的に明らかにするメタ言語部会の仕事は、このための土台を作るものでなければならない。 10 最終目標:ユーザに受け容れられることいかなる標準も人に強いるものであってはならない。 TEI の成功は、ガイドラインがその役に立つことを意図した共同体によって最終的に受け容れられることにかかっている。開発にあたってできる限りユーザを取り込むことがこの成果の第1段階だ。 TEI 運営委員会は、1992年 6月の最初の版が定着してからは、将来への計画をいまも組織だてているところである。前節で略説した活動内容は、今後も検討していくことの一部である。その他の内容についての提案も大歓迎である。 11 謝辞この概説の資料の多くは、他の TEI 文書からとった。文書のほとんどは、編集委員である Michael Sperberg-McQueen と Lou Burnard が著したものである。 この仕事は、合衆国国立人文学基金 ( NEH ) 、欧州共同体の委員会の第 13 回合同理事会、アンドルー・W・メロン財団による寛大な資金援助によって可能となったものである。 TEI は、プロジェクト参加者の所属機関より間接的に受けた物的援助にも感謝する。 付録A ヴァッサー会議の結語テキスト・コーディングのガイドラインを用意すること
付録B TEI ガイドラインの概観以下に抜粋した目次から、ガイドラインで取り上げている論題をうかがうことができる。
付録C TEI 編集委員C. M. Sperberg-McQueen, Computer Center (M/C 135), University of Illinois at Chicago, 1940 W. Taylor St., Room 124 Chicago, IL 60612-7352, USA u35395@uicvm.uic.edu u35395@uicvm.bitnet (+1 312) 413-0317 (+1 312) 996-6834 fax Lou Burnard, Oxford University Computing Services, 13 Banbury Rd, Oxford OX2 6NN, England lou@vax.ox.ac.uk (+44 1865) 273238, 273200 (+44 1865) 273275 Fax |
|
|