|
|
TEI U6 のメモ
【 訳 > メモ 】
1998.9.11 |
|
1 はしがき 2 序 3 SGML の骨子 4 テキスト・コーディングの基本 5 テキストの全体構造 6 TEI ヘッダ 7 まとめ 8 完璧な例 9 もう少し面白い例 10 ソフトウェア 11 このサブセットの要約 |
|
TEI 入門
|
|
1 はしがき
マーク・オルセン様
ARTFL Database シカゴ大学 1050 E. 59番街 シカゴ、イリノイ州 60637 拝啓 数か月前、 TEI が『電子テキストのコーディングと交換・流通のためのガイドライン』というガイドライン(あの 1,300 ページ、7ポンドもあるやつだ。)を出版したとき、僕にくれた手紙で(覚えているだろう?)君はこういう意味のことを書いたっけ。「おまえの送ってよこした石ころが今日、俺の机に届いた。これの虎の巻はあるのか? 余分な文句の書いてない、完全なミニチュア版のコーディングだけのっけた TEI 入門書のことだ。」 この文書は、君の求めに応じて作ってみたものだ。だが、君に本当に必要なものを伝えるには、これでは半分にも満たない。もう半分は、他の人が求めているもの、いわば『 TEI ポケットガイド』といった類のものだ。これは、理解するのにいくらも手間がかからないわりに、かなり本格的な仕事にも十分堪え、たいていの場合、電子テキストをコーディングするのに十分な内容のものだ。ルウ(* L. バーナード)とは、この点についていささか議論したが、『ポケット TEI 』(通称『 TEI Lite 』)は、今では『 TEI タグ付け入門』(文書 TEI U5)と呼ぶ小冊子になっている。 けれども、君が求めているのは TEI Lite のようなものではない。もっと小さくて、もっと簡素なものだ。君が要望しているのは、それなしには今日、有用な電子テキストを作るなどまったく考えられないような TEI タグの最小限度のタグを切り離すことだ。そういうものを、ここでまとめてみたのだ。 ただし、気をつけて。君の手もとにあるものは、実際に新しくテキストをコーディングするのに使えるマーク付け方式を作ろうとしたものなどでは断然ない。これはマークアップ言語の「おもちゃ」版( a toy markup language )を説き明かした極小のものだ。最低限度と必要最小限度とは必ずしも同じではない。とくに、ここに挙げたタグ・セットは ARTFL データベースのテキストや他の既存データを TEI の形式に直すにはおそらく間に合うことと思うが、それでももし新たに電子テキストの作成にとりかかったなら、ここに並べたテキストの要素しか使えなくて頭がおかしくなることだろう。理屈にはしったマーク付け方式にはムカムカするという君の持説は承知しているし、実際、君の苛立ちぶりは友人たちも等しく銘記しているところでもあるが、でもそんなバカなことはしないだろうね。 ここに定義したタグ・セットは単純なものだから、君なら30分で理解できるし、半日もあれば十分習熟してしまい、1日、まあ一二週間もすれば完全に卒業してしまうことだろう。そのうえ、これは TEI のコーディング方式全体と完全な互換性をもつサブセットなので、実際この入門タグ・セットを卒業して、 TEI Lite や完全な TEI マークアップ言語を見たとしたら(そう願いたいが)、もう君は TEI コーディングの基本をしっかりつかんで、追加のタグが出てきても、この入門 TEI 方式を消化する間に形作った概念の枠組みの中にやすやすと取り込んでしまえるだろう。君や、同じように狂気を偏愛する読者を完全な TEI マークアップ方式にまで徐々にいざなうため、このアウトラインには入っていない TEI ヘッダと TEI コア・タグ・セットについても繰り返し触れていこうと思う。そうすれば、何が抜けているかよく分かるだろう。 ただし、ルウは入門 TEI のサブセット定義には疑問を持っている。これでは本式のデータ・コーディングには使えないと思っているところまでは僕と同じだ。僕のほうはそれでも初めて TEI に触れる人の役には立つはずだと信じているが、彼はそれには反対だ。でも役に立つと思う。それは、(a) ごちゃごちゃした部分を減らすことで(ここに挙げたタグは誰もが必要とするものだ)、 TEI 方式の基本的輪郭をより明らかにする意味でも、(b) 帰謬法によってタグ・セットのサイズをここまで縮小できること( HTML 1.0 とほぼ同じ大きさ)ということは、余分な贅肉を(実際ほとんどどんなテキストをコーディングするのにも使えて、テキストを合理的に取り扱うには必須でも)そぎ落とさざるをえなくなることを示す意味でも有益だと思うのだ。ルウは、僕の考えを夢想だという。時が経てばはっきりする、と。
というわけで、ここに君の依頼した TEI 入門がある。どうか君が体調の良い時にこれを読んでくれて、そして今あるデータを TEI 形式に直し、今使っているソフトウェアで TEI を取り扱えるように拡張するやり方が分かるようになればと思う。(注意。もしも君がこのサブセットだけを実装して、完全な TEI DTD をサポートしなかったら、悪口雑言が雨あられと降り注ぐぞ。それどころか、この本にある悪口ぜんぶを付け加えてやってもいい。)いくつかの SGML と TEI でタグ付けしたデータで試してみてほしい。いくつか試してみれば、誰もが実際に使うテキストを本式にコーディングするには、もっと大きな体系(つまり完全な TEI 方式)が必要になることを理解してもらうのに十分だろう。もし使うなら、標準的な TEI ではなく、 TEI Lite を使うといい。けれどもここにざっと描いてみたタグの骸骨(タグの屍というかな)だけで片付けてはいけない。君だって、それほどバカじゃないだろう。 敬具
マイケル 2 序この文書は、テキスト・エンコーディング・イニシアチブ ( the Text Encoding Initiative: TEI ) によって1994年に刊行された『電子テキストのコーディングと交換・流通のためのガイドライン』から基幹となるタグ・セットを抜き出して述べたものである。ここに述べたタグは、ガイドラインにまとめてある完全なマーク付け方式の簡単な入門として役立つように選んだものである。これは、簡単な電子テキストを作るには間に合うかもしれないが、本格的な仕事にはもっと大きな TEI タグ・セットを使う必要が出てくる。読者は、この文書を TEI タグ付けの入門として使ってほしい。そして、本書を読み、しばらくこのタグ・セットを使ってから、他の TEI 文書の勉強に進んでいってほしい。それは、『TEI Lite — TEI タグ付け入門』(文書 TEI U5)、又はガイドラインそのもの(『電子テキストのコーディングと交換・流通のためのガイドライン』 文書 TEI P3)である。 この文書は、タグに例文をつけて分かりやすく解説している。完全なタグ・セットを学ぶための刺激として、本書では、タグのフルセットの中にあってここでは基幹タグ・セットを簡単なものにするために省いてあるタグにもときどき触れている。それらは、初めて読むときは無視しても構わない。すべてのタグの詳細な解説と、標準汎用マークアップ言語 ( the Standard Generalized Markup Language : SGML ) に則った形式記述は、ガイドラインの方にある。 3 SGML の骨子SGML(標準汎用マークアップ言語)は、テキストを電子的な形で表すための形式言語である。 TEI タグ・セットは SGML の言葉で定義されており、 TEI 準拠の文書はどれも SGML に適合する。 SGML に基づいたコーディング方式では、文書を内容(ざっといえば、印刷されたページに見える文字のことだ)とマーク付け(これもざっといえば、テキストの構造についての情報だの、章節の区分のような、テキストの正しい処理にとって大切な特徴だの、与えられた語句が専門用語でイタリック体でなければならないというような事柄だのをいう)との組み合わせで表している。専用のワープロソフトのような非 SGML ソフトウェアも、同様に内容とマーク付けの区分を用いている。洗練されたソフトウェアでは、マーク付けはユーザが reveal-codes 機能の類を使って見ようとするのでなければ通常は見えない。 SGML は次のいくつかの点で、専用のマーク付けソフトとは異なっている。
その他の違いもあるが、とりあえずこれで十分だろう。 SGML のマーク付けは3つの形をとる。宣言・実体参照・タグの3つだ。(うそをつけない性質なので、実際には4つの形があるといっておこう。4つめは、処理命令であるが、ここでは関係がない。) 宣言は、文書型で正規に定めているタグや実体参照を定義するのに使う。ここで問題となるタグと実体は、すでに TEI によって定義済みなので、この文書でこれ以上詮議する必要はない。もしも TEI のタグ・セットをカスタマイズしようとするのであれば、これらについて学ぶ必要があるだろう。この点については、本書の範囲外である。ここで知る必要のある宣言の形は一つ、下の例を見れば分かるように、<!-- で始まり --> で終わるコメントだけである。 |
|
<!-- this is a comment. --> <!-- this is a second comment. --> <!-- Comments are ignored by the SGML parser, and usually ignored by SGML software of all types. As this comment shows, comments can go on for several lines. --> |
|
実体 (entity) は個別に蓄積された文書の部分を名付けたものであり、実体参照 (entity reference) は個々の実体が働く場所を示す。中でも、実体参照は、よくあることだが、キーボードに無い特別な文字を埋め込むのに使われる。特殊文字用の実体は、国際標準で定められている。たとえば、実体 eacute は「強調アクセントのついた e 」 (é) の文字を名付けたものだ。標準文字実体セットを使っているとき、次の2つの例の表す意味は同じである。 |
|
(1) L'état, c'est moi. |
|
(もしも伝達が妨げられたり、アクセント文字のないディバイスで表示している場合に備えて、(1)の3〜10文字目までの実体 eacute への参照が(2)の3文字目、システム固有の文字コードによって実際に強調アクセントのついたe文字を表したもので置き換えられていることを除いては、(1)の例と(2)の例は同じものである。) 実体は、グラフィックや非 SGML 記法によるデータを扱ったり、よりメンテナンスを簡単にする目的で文書を分割ファイル形式で保存したりするのにも使われるが、ここではとりあげない。 タグは文書中のある部分の初めと終わりのマーク付けをする。部分そのものは要素 (element) と呼ぶ。通常、文書の中でタグは山形カッコによって示す。終了タグは開始タグのカッコの後にスラッシュを入れたものである。次の例では、文章はそれを囲む開始タグと終了タグによって引用としてマーク付けされている。 quoteが TEI の定義した要素型である。 |
|
<quote>L'étag, c'est moi.</quote> |
|
要素は基本となる型が常にある(この例でいえば、 quote がそれだ)。また、要素の開始タグの中に特別な記法で指示した属性 (attribute) を入れることもある。例えば、 TEI では lang 属性をどの要素にも共通するものと定義しており、2文字ないし3文字の略字を標準の値として要素内容の言語の種別を示す(例えば、 fra は「フランス語」というように)。 |
|
<quote lang='fra'>L'état, c'est moi.</quote> |
|
属性には、きまった型の値をとるものがある。例えば、 id 型の属性はその要素で唯一の名前か識別子でなければならない。そのことによって、この識別子を他の idref (id reference) 型の属性によって参照することが可能になるからだ。 TEI では、id 型の要素には共通属性 id を定義し、相互参照 (cross-reference) や他のハイパーテキストとのリンクに用いている。 最後に、 SGML ではタグが論理的に省略でき、他のタグとの関係で位置を推定できる場合、文書から一部のタグを省略してもよい。けれども、この文書に挙げた例では、この手軽さを使うことはせず、常にすべてのタグを明示することにしよう。タグの省略は、 SGML エディタなしに作業している人にとって関心の対象となるくらいのものだ。 要約すれば、 SGML ではすべてをデリミタで区切るのだ。
SGML についてはこれだけだ。今述べた決まりが分かったら、この文書に出てくる SGML の例はみな問題なく理解できるだろう。 |
|
4 テキスト・コーディングの基本
TEI 準拠の電子テキストは、テキストそのもの(ある原典から電子的な形で写したか作ったもの)の前に TEI ヘッダがくる。そこでは、電子テキストを同定し、さらに作成に使用したコーディング方法等を書き記すこともできる。ヘッダとテキストのすべては <tei.2> 要素で囲み、その前にはさらに、文書を検証する (validate) のに用いた文書型を示す SGML 宣言を置く。 ここでは SGML 宣言には触れない。以下の節で、 TEI ヘッダと、前文・後付専用のタグについて述べる。しかし、電子テキストを用いた仕事では、時間のほとんどはテキスト本文そのものに充てることになるので、まずは基本的なテキストのコーディングに使うタグを書き記すことから始めよう。段落(パラグラフ)やパラグラフ様のもの、パラグラフの中に現れる文字・語句レベルの要素などがそれだ。 段落(パラグラフ)パラグラフをマークするには <p> タグを使う。パラグラフはネストできず、したがって p 要素も入れ子にできない。段落の例: |
|
<p>I call specific attention to the authority given by the 21st Amendment to the Constitution to prohibit transportation or importation of intoxicating liquors into any State in violation of the laws of such State.</p> <p>I ask the wholehearted cooperation of all our citizens to the end that this return of individual freedom shall not be accompanied by the repugnant conditions that obtained prior to the adoption of the 18th Amendment and those that have existed since its adoption. Failure to do this honestly and courageously will be a living reproach to us all.</p> <p>I ask especially that no State shall by law or otherwise authorize the return of the saloon either in its old form or in some modern guise.</p> |
|
[以下、例文は特に断り書きがない場合、フランクリン・D・ルーズベルトの禁酒令撤廃宣言(『フランクリン・D・ルーズベルト大統領公文書・演説集』第2巻 ランダムハウス社 ニューヨーク 1938年、pp. 510-514)による。] 強調語句原文で強調してある語句(または強調語句として出力する語句)は、イタリック体・ボールド体・小頭文字(*小さめに打った大文字)・その他特別の扱いがしてあっても、すべて <hi> 要素でタグ付けするのがよい。強調の仕方を指示するには rend 属性を付け加えてもよい。次の例では、whereas という単語と therefore, I, Franklin D. Roosevelt という句が原文では小頭文字で印刷されている。 |
|
<p><hi rend='sc'>Whereas</hi> the Congress of the United States ... </p> <p><hi rend='sc'>Whereas</hi> Section 217(a) of the Act of Congress entitled "An Act ..." ...</p> <p><hi rend='sc'>Whereas</hi> it appears ... </p> <p>Now, <hi rend='sc'>therefore, I, Franklin D. Roosevelt</hi>, President of the United States of America ... do hereby proclaim that the Eighteenth Amendment to the Constitution of the United States was repealed on the fifth day of December, 1933.</p> |
|
rend 属性は、文字表示が問題でない場合、または強調の仕方がすべて同じ場合には省略してよい。その値はコーディングする者が随意に決めてかまわない。使われた値が今度は処理ソフトウェアに要素を正しく表示あるいは処理するように指示することになるだろう。 [単に語句が強調されていることを示すよりは、どうしてそれが強調されているかを示す要素型を使って語句をマーク付けする方が通常は望ましい。完全な TEI コーディング方式では、強調して印刷してあるところを仕分けして、文法的強意(emph)・外国語(foreign)・標準でない、又は特殊の言語(distinct)・専門用語(term)・用語集(gloss)・言及語句(mentioned)等の区別を示すことができる。一般的な hi 要素は、より詳しい選択肢を作ることが経済的または技術的内容的な面で不可能な場合に限って用いられるのが普通である。] |
|
引用<q> (quotation) 要素により、他の作品からの引用部分をマーク付けしたり、物語中の人物による会話を示したりする。 |
|
<p><hi rend='sc'>Whereas</hi> Section 217(a) of the Act of Congress entitled "An Act ..." approved June 16, 1933, provides as follows: <q>Section 217(a) The President shall proclaim the ... </q></p> |
|
ブロック引用と行内引用とは、ただ rend 属性の値によってだけ区別する。前者の値は「block」又は「display」であり、後者の値は「inline」となる。 [完全な TEI 方式では、外部文書からの実際の引用には <quote> を使うこととし、 <q> とは異なって直接の会話や引用の体裁だけとったものには使わない。その他、ガイドラインにあってここに無いものには、典拠への書誌的参照を含めた引用に使う <cit> 、著者がしかと責任を持てないことを示す「強調の引用」を付けてあるものに使う <soCalled> などがある。] |
|
相互参照他の文書へを参照、あるいは現在の文章で他の個所を参照するには、 <ref> タグを使うのがよい。 |
|
WHEREAS <ref>Section 217(a) of the Act of Congress ... approved June 16, 1933</ref>, provides as follows: ... |
|
[文書作成システムでは普通に行うことだが、他の文書や節を参照する語句がソフトウェアによって自動的に生成できる場合には、 <ptr> と呼ぶ空要素を使うことを完全方式では定めている。] 同じ SGML 文書内の相互参照には、参照する節を示すのに target 属性を使うことができる。その値は、文書中のある要素に割り当てている id の値である。例えば、次の相互参照の例: |
|
I there expressed the hope, and asked for united cooperation, that this return of individual freedom would not be accompanied by anti-social conditions, such as the saloon and the other evils of the pre-prohibition era. (See also <ref target='pc1993-10-11'>Press Conference of October 11, 1933, Item 137, this volume</ref>.) |
|
この例は、指定した識別子をもつ要素が書中のどこかにあることを踏まえている。 |
|
<div id='pc1933-10-11'> <head>Press Conference, 11 October 1933</head> <!-- ... --> </div> |
|
[例文は『公文書』中、禁酒令撤廃宣言に続く注記からとった。] 下の例で用いた要素に使った<div>・<head>については後述する。 |
|
ページ区切り一般に原文が既存の印刷物から写したものなどで、ページ区切りに意義が見出せる場合、<pb> 要素を使って記録するようにしたい。これは空要素である。つまり、内容も終了タグもない。これは、テキストの一部分や節をマーク付けするのでなく、ただテキスト中の位置を示すだけである。この属性 n はすべての TEI 要素に共通する要素だが、ここではページ番号を示すのに使う。もし複数の版にわたってページ番号を写す場合には、ed 属性が2つのページ付けを区別するのに使われる。 |
|
<p>I ask the wholehearted cooperation of all our citizens to the end that this return of individual freedom shall not be accompanied by the repugnant conditions that obtained prior to the <pb n='512' ed='1938'> adoption of the 18th Amendment and those that have existed since its adoption...</p> |
|
[ページ区切りに加えて、列区切りと行区切りも関心の対象となる。完全 TEI 方式では、意外なタイプの境界や区切りに一般的な <milestone> 要素を使うばかりでなく、これら(列と行の区切り)に <cb>、 <lb> 要素を定めている。 TEI ヘッダ中の特別なタグは、この milestone 要素がその作品のための標準的参照方式でどのように使われているかを記述することができる。] |
|
韻文詩の各行は <l>(Lの字)でタグ付けし、連その他、行以上のレベルの構造は <lg> (line group) でタグ付けする。後者には type 属性をつけて、検索その他に必要な形式的構造を表すこともできる。 |
|
<lg type='quatrain'> <l>Awake! for Morning in the Bowl of Night</l> <l>Has flung the Stone that puts the Stars to Flight:</l> <l>And Lo! the Hunter of the East has caught</l> <l>The Sultan's Turret in a Noose of Light.</l> </lg> |
|
[例文は、オマル・ハイヤーム『ルバイヤート』(エドワード・フィッツジェラルド訳、カリア社 ニューヨーク、カリア・マクミラン社 ロンドン 1962)から初版冒頭の四行詩を引用。] 行のインデント(字下げ)に意味がある時は、共通属性 rend を使って適当な値を設定することができる。 |
|
<l rend='indent'>And Lo! the Hunter of the East has caught</l> <l>The Sultan's Turret in a Noose of Light.</l> |
|
もちろん、詩が他のテキストからの引用である場合は、 <l> 要素を <q> 要素で囲まなければならない。 |
|
戯曲戯曲は、<sp> (speech) 要素と <stage> (stage direction) 要素でコーディングする。ト書き(舞台指示)は、会話の中か会話の間に現れる。下の例に見るように、話し手は <sp> 要素に who 属性をつけて示すことができる。 |
|
<sp who='Casca'> <l>Speak, hands, for me!</l></sp> <stage>They stab Caesar.</stage> <sp who='Julius Caesar'> <l>Et tu, Brute? -- then fall, Caesar!</l> <stage>Dies.</stage></sp> |
|
[例文は、「ジュリアス・シーザー」の現代学生版(第3幕第1場)からとった。(ウィリアム・シェイクスピア『ジュリアス・シーザーの悲劇』 エアモント社 ニューヨーク 1965年)] 原文の会話主表示を正確に表すことが重要な時は、<sp> 要素の初めにそれぞれ <speaker> 要素を付けて識別することができる。 |
|
<sp><speaker>Cas.</speaker> <l>Speak, hands, for me!</l></sp> <stage>They stab Caesar.</stage> <sp><speaker>Caes.</speaker> <l>Et tu, Brute? -- then fall, Caesar!</l> <stage>Dies.</stage></sp> |
|
これらのタグは戯曲として書かれているものばかりでなく、戯曲様の体裁をとった文章にも使える(例えば、演説原稿や記者会見記録など)。 |
|
The brave men living and dead who struggled here have consecrated it far above our power to add or detract. <stage>[Applause.]</stage> <!-- ... --> and that Governments of the people, by the people, and for the people, shall not perish from the earth. <stage>[Long-continued applause.] </stage> |
|
[エイブラハム・リンカーン「ゲティスパーグ共同墓地での奉献演説」新聞版(ロイ・P・バスラー編『エイブラハム・リンカーン選集』第7巻、ラトガーズ大学出版会 ニュー・ブランズウィック 1953年、pp. 20-21)。このテキストでは、こうしたト書きがカッコ書きになっているので、コーディング担当者は stage 要素が必ずカッコ書きである旨を TEI ヘッダに記し、角カッコを全部省略してしまうこともできるだろう。] 詩の場合と同じく、もし戯曲が他のテキストからの引用であった場合、<q> 要素で囲まなければならない。 |
|
書誌的参照書誌的参照は、通常 <bibl> 要素で囲む。その中または外に、記事名・書名・誌名等を表すために <title> を置くことができる。その level 属性は A, M, J, S,U の値をとるが、それぞれ分析的な(記事の)題名 (analytic, article) 、書名・冊子名 (monographic, book) 、誌名 (journal) 、叢書名 (series) 、論文のように刊行されないものの標題 (unpublished) を表す。例えば、「1933年 4月 4日就任演説」(『フランクリン・D・ルーズベルト大統領公文書・演説集』第2巻 ランダムハウス社 ニューヨーク 1938年、pp. 510-514)への参照をコーディングすればこのようになるだろう。 |
|
<bibl> <title level='A'>Inaugural Address, March 4, 1933</title>, in <title level='M'>The Public Papers and Addresses of Franklin D. Roosevelt </title>, vol. II (New York: Random House, 1938), pp. 11-16. </bibl> |
|
[著者、編集者、出版社その他の書誌的要素用のタグは、この入門タグ・セットでは省略している。また、一貫した構造をもった書誌的項目を必要とし、すべての項目が(例えば機械的処理用に)正しく構成してあるときに有効な <biblStruct> 要素や <biblFull> 要素も省いてある。] |
|
省略もしも(判読不能とかユーザには関心がないと思われる等の理由で)電子テキストから省略されているものがある場合、省略個所に <gap> 要素を使うことで省略があることを示すのが普通である。何が省略されているかの記載 (description)、省略の理由 (reason)、省略の範囲 (extent) を示すために、desc, reason, extent 属性をそれぞれ付け加えることもできる。 |
|
<p> Suppose I see two individuals approaching whose rank I wish to ascertain. They are, we will suppose, a Merchant and a Physician, or in other words, an Equilateral Triangle and a Pentagon: how am I to distinguish them?</p> <p><gap desc='geometric figure' reason='editorial policy' extent='ca. 14 lines'></p> <p>It will be obvious ... </p> |
|
[例文は、エドウィン・A・アボット『平地−多次元の恋物語』(1884年、再版 ドーバー社 ニューヨーク 1992年、p.19)、第6章 「一目惚れ」より引用。] |
|
注記テキストの注記は、脚注・後注・行間注記等のいずれであれ、<note> 要素でタグ付けするのがよい。望むなら、place 属性でその位置を指定してもよい。原注と編集者の注とは、注記の責任者を示す resp 属性によって区別することができる。その例: |
|
<p>IN WITNESS WHEREOF, I have hereunto set my hand and caused the seal of the United States to be affixed.</p> <note resp='ed' place=inline><p>The 72d Congress, which convened following the 1932 election, passed the Twenty-first Amendment to the Constitution to repeal the Eighteenth Amendment.</p> <p> ... </p> </note> |
|
脚注と後注は、その注記の個所に書き写すのが普通である。注の番号を n 属性で加えてもよい。 |
|
... have consecrated it far above our power<note place='foot' n=21> Philadelphia <title>Inquirer</title> has <q>our poor attempts</q> and Chicago <title level='J'>Tribune</title> has <q>our poor power.</q></note> to add or detract. |
|
リストリストは、<list> 要素と <item> 要素を使ってタグ付けするとよい。リストの見出し・標題は <head> でタグ付けする。リストは type 属性によって番号付き (ordered) ・番号なし (unordered) その他に分けることができる。その例: |
|
The President shall proclaim the date of <list type=ordered> <item n='(1)'>the close of the first fiscal year ending June 30 of any year after the year 1933, in which ..., or</item> <item n='(2)'>the repeal of the eighteenth amendment to the Constitution, </item> </list> whichever is the earlier. |
|
完全 TEI 方式では、項目番号またはラベルを付与するのに、n 属性を使うやり方に代わる方法として <label> 要素も定義している。 |
|
触れていないもの前節までの注で完全 TEI 方式のうちコア・タグ・セットにあってこの入門版に抜けているいくつかの要素に触れてきた。すでに触れたものに加え、本書で省略したタグには固有名詞や人名・地名への参照、住所、数・番号、単位と量、日付・時刻などがある。 完全方式ではまた、ハイパーテキストのリンク方法、テキストの(文法的・文学的)分析及び解釈、手書き原稿の写し、テキスト批判の機構、テーブル(表)、図、その他専門的関心に合わせたタグ・セットについても定めている。 |
|
5 テキストの全体構造
前文・本文・後付全体的に、テキストは前文・本文・後付に分かれ、それぞれ <front>、<body>、<back> とタグ付けされる。前文と後付は、その位置だけが異なり、まったく同じ内容のものである。例えば、書物の典型的な全体構造はこのようなものになるだろう。 |
|
<text> <front> <!-- front matter here: title page, dedication, preface, etc. ... --> </front> <body> <!-- main body of edition here ... --> </body> <back> <!-- back matter here: index, bibliography, etc.... --> </back> </text> |
|
テキスト区分本文の中、または前文・後付の中で、テキストは(部・章・節、幕・場、編・連等々の)さらに細かい区分がなされている。そのような区分には、ただ <div> 要素だけを使うのがよい。細かな節には、<div> 要素をネストさせてタグ付けする。その区分が特別の名前や型を持つことを示すには type 属性を使うことができる。異なる値を示さなければ、以後の区分も同じ値をとる。テキスト区分の中では、段落(パラグラフ)や段落レベルの要素( note, list 等)が現れうる。 |
|
<div type='Section' n=1> <p>The eighteenth article of amendment to the Constitution of the United States is hereby repealed.</p></div> <div n=2><p>The transportation or importation into any State, Territory, or possession of the United States for delivery or use therein of intoxicating liquors, in violation of the laws thereof, is hereby prohibited.</p></div> <div n=3><p>This article shall be inoperative unless it shall have been ratified as an amendment to the Constitution by conventions in the several States, as provided in the Constitution, within seven years from the date of the submission hereof to the States by the Congress.</p></div> |
|
テキスト区分に見出しがなく、あるいは type 属性の値や番号程度の見出ししかない場合には、上の例に示したように、何の見出しもつける必要はない。けれども、もし望むなら見出しを明示することもできる。 |
|
<div type='Section' n=1> <head>Section 1.</head> <p>The eighteenth article of amendment to the Constitution of the United States is hereby repealed.</p></div> <div n=2><head>Section 2.</head> <p>The transportation ...</p></div> <div n=3><head>Section 3.</head> <p>This article shall be inoperative unless ...</p></div> |
|
この例文の見出しは固定したテキストであり( Section の語の後に n 属性の値がくる)、ほどほどに処理能力のある SGML ソフトウェアなら機械的に生成できる。一般に、もしそういう部分がテキストの一部として書いてなく、テキストの表示・印刷に際して生成するものであったなら、文書管理はもっと便利で結果ももっと一貫したものになる。もちろん、原文の一貫性の欠如も研究対象にはなるわけで、もしそうなら矛盾は明示的に残したほうがよい。 [完全 TEI コーディング方式には、テキスト区分の初めまたは終わりに、アンソロジー(他のテキストを含むテキスト)名・題辞・日付表示・著者名表示・挨拶・署名・一群の見出しや日付表示を行う専用の要素が含まれている。] |
|
扉TEI コーディング方式では、扉を書き写すための専用のタグを定めて、扉に表された文書の著者・標題・日付等を処理ソフトウェアが容易に見付け、特定できるようにしている。扉そのものとその主な構成要素は、次の例で示す。 |
|
<titlePage> <docTitle> <titlePart type='main'>The Public Papers and Addresses of Franklin D. Roosevelt</titlePart> <titlePart type='sub'>With a special introduction and explanatory notes by President Roosevelt</titlePart> <titlePart type='vol number'>Volume Two</titlePart> <titlePart type='vol title'> The Year of Crisis 1933</titlePart> </docTitle> <docImprint> <publisher>Random House</publisher> <pubPlace>New York</pubPlace> <docDate>1938</docDate> </docImprint> </titlePage> |
|
<titlePart> 要素は、文書の標題の異なった部分を表すため(上例参照)だけでなく、扉の中にあって文書の標題でも著者でも印刷情報でもない雑多な部分を表すためにも使う。 [ここに示したタグに加えて、完全 TEI 方式では「改訂第2版」というような情報をタグ付けするのに <docEdition> 要素を定めている。] |
|
6 TEI ヘッダ
TEI ヘッダは、君が作成した電子テキストを後で使うユーザに、そのテキストが何であるか、誰が(つまり君が)この電子テキストを作ったか、そして何を(何版を)典拠にして写したかなどを見出す手がかりを与えるものだ。十分に書けば、筆写に関するすべての情報(断り書きなしで字句を訂正したか、略語を展開したか、綴りを標準化したかなど)を書くことができ、テキスト字体の詳細な特徴(著者、聴衆、主題、ジャンル等に関する統計資料)や大規模プロジェクトでの文書管理には重要となる変更履歴などをも盛り込むことができる。 しかし、入門編では次の TEI ヘッダを機械的に写し、角カッコ内のテキストをコーディングするテキストに特有の情報と置き換えるのが非常に簡単なやり方である。もし電子テキストが既存の原文から写したものではなく、電子的な形式で作成しているものであるなら、<sourceDesc> 要素中の <bibl> タグを <p> に変えなければならない。 |
|
<teiHeader> <fileDesc><titleStmt><title> [ここに電子テキストの標題を入れる。] </title><publicationStmt><p> [誰がこの電子テキストを発行しているかを示す。(つまり君の名前)] </p></publicationStmt><sourceDesc><bibl> [この電子テキストを写す元となった原文を示す。] </bibl></sourceDesc></fileDesc></teiHeader> |
|
例えば、この入門書の TEI ヘッダはこのようになる。 |
|
<teiHeader> <fileDesc><titleStmt><title> Bare Bones TEI: A Very Very Small Subset of the TEI Encoding Scheme </title><publicationStmt><p> Published electronically by the Text Encoding Initiative, Chicago and Oxford, in 1994. </p></publicationStmt><sourceDesc><p> This text was created in electronic form. </p></sourceDesc></fileDesc> </teiHeader> |
|
触れていないもの[ここに挙げていない TEI ヘッダの利点には次のようなものがある。
これらの利点は、完全なヘッダにはある。 TEI Lite タグ・セットではすべてを定義しているわけではない。] |
|
7 まとめTEI でコーディングしたテキストは、常に <tei.2> 要素でコーディングされ、この中では <teiHeader> 要素に <text> 要素が続く。全体構造は以下の通りである。 |
|
<tei.2> <teiHeader> <!-- TEI header information ... --> </teiHeader> <text> <front> <!-- ... --> </front> <body> <!-- ... --> </body> <back> <!-- ... --> </back> </text> </tei.2> |
|
<tei.2> 要素の開始タグの前には外部ファイルへの明示的な参照があるが、このファイルには SGML パーサによってテキストに適用される文書型定義を含む。ここにいう切り離した形の DTD は次の文書型宣言によって呼び出すことができる。 |
|
<!DOCTYPE tei.2 SYSTEM 'barebone.dtd'> |
|
システムによっては、文書と規定の文書型との連絡は内部的に行われ、そのようなはっきりした宣言は文書をシステムからエクスポートするまでは見えない。そうしたシステムでは、ユーザは文書を最初に作る際または編集者にインポートする際に、「規則」または「論理」ファイルを選択するよう求められるだろう。 |
|
8 完璧な例次の例はささやかながら、ここで宣言したタグ・セットを使ってコーディングした完全な文書である。 |
|
<tei.2> <teiHeader> <fileDesc><titleStmt><title> Bare-bones Sample of Bare-bones Tagging </title><publicationStmt><p> An unpublished document. </p></publicationStmt><sourceDesc><p> This document created in electronic form. </p></sourceDesc></fileDesc></teiHeader> <text><body> <p>The world's shortest TEI document.</p> </body></text> </tei.2> |
|
9 もう少し面白い例入門タグ付けのもう少し実際的な例は、次に挙げるフランクリン・D・ルーズベルト大統領の禁酒令(米国憲法第18条修正案の採択により米国民に押しつけられたアルコール類禁止のこと)を撤廃した宣言からの抄出である。次の例に見る全体構造は、ルーズベルトの『公文書』全文またはいくつかの選集が書き写されているとしたら使っているはずのものである。 |
|
<tei.2> |
|
ヘッダは電子テキスト名を示し、その元となった原文を示す。 |
|
<teiHeader> <fileDesc><titleStmt><title> Proclamation of the 21st Amendment: an Electronic Version </title></titleStmt> <publicationStmt> <p>Published by the TEI as a specimen of tagged text.</p></publicationStmt> <sourceDesc><bibl> <title level='M'>The Public Papers and Addresses of Franklin D. Roosevelt </title>, vol. II (New York: Random House, 1938). <!-- here we transcribe only <title level='A'>The President Proclaims the Repeal of the Eighteenth Amendment. Proclamation No. 2065. December 5, 1933</title>, pp. 510-514. --> </bibl> </sourceDesc></fileDesc></teiHeader> |
|
<text> 要素には、実際に書き写した文章を入れる。 |
|
<text><front><titlePage> <docTitle> <titlePart type='main'> The Public Papers and Addresses of Franklin D. Roosevelt</titlePart> <titlePart type='sub'> With a special introduction and explanatory notes by President Roosevelt</titlePart> <titlePart type='vol number'>Volume Two</titlePart> <titlePart type='vol title'>The Year of Crisis 1933</titlePart> </docTitle> <docImprint> <publisher>Random House</publisher> <pubPlace>New York</pubPlace> <docDate>1938</docDate> </docImprint> </titlePage> <div type='copyright page'> <!-- ... --> </div> <div type='notice'> <!-- ... --> </div> <div type='table of contents'> <!-- ... --> </div> </front> |
|
電子テキストの本文は、個々に <div> 要素でまとめた一連の文書である。 |
|
<body> <div n=1 type='speech'> <head>Inaugural Address.</head> <head type='date'>March 4, 1933</head> <!-- ... --> </div> <div n=2 type='Proclamation'> <head>The President Calls the Congress into Extraordinary Session.</head> <head type='docno'>Proclamation No. 2038.</head> <head type='date'>March 5, 1933</head> <!-- ... --> </div> <!-- ... etc. --> |
|
第18条修正案の撤回は、この本の項目175である。 |
|
<div n=175 type='Proclamation'> <head>The President Proclaims the Repeal of the Eighteenth Amendment.</head> <head type='docno'>Proclamation No. 2065.</head> <head type='date'>December 5, 1933</head> <p><hi rend='sc'>Whereas</hi> the Congress of the United States in 2d Session of the 72d Congress, begun at Washington on the fifth day of December in the year one thousand nine hundred and thirty-two, adopted a resolution in the words and figures following, to wit —</p> |
|
この時点で米国議会の決議の全文が引用してある。引用にはそれ自身の標題と段落分けがあり、さらに別の文書(後に第21条の修正案となるもの)を全文埋め込んである。ルーズベルトが決議文を引用しているので、それを <q> としてマーク付けした。 <q> の中に <text> 要素がある。 <q> はその初めと終わりに引用符をおいたブロック引用の形で表示し、各段落の初めにも引用開始符をつけてある。 |
|
<q rend='display, quoted paras'><text><body> <head rend='caps'>Joint Resolution</head> <head type='sub'>Proposing an amendment to the Constitution of the United States.</head> <p>Resolved by the Senate and House of Representatives of the United States of America in Congress assembled (two-thirds of each House concurring therein), That the following article is hereby proposed as an amendment to the Constitution of the United States, which shall be valid to all intents and purposes as part of the Constitution when ratified by conventions in three-fourths of the several States: |
|
埋め込まれた修正案のテキストの始まりは次のようになる。 |
|
<q><text><body><head rend='caps'>Article</head> <div type='Section' n=1> <p>The eighteenth article of amendment to the Constitution of the United States is hereby repealed.</p></div> <div n=2><p>The transportation or importation into any State, Territory, or possession of the United States for delivery or use therein of intoxicating liquors, in violation of the laws thereof, is hereby prohibited.</p></div> <div n=3><p>This article shall be inoperative unless it shall have been ratified as an amendment to the Constitution by conventions in the several States, as provided in the Constitution, within seven years from the date of the submission hereof to the States by the Congress.</p></div> </body></text> </q> |
|
埋め込まれた修正案のテキストの終わりはこうだ。 |
|
</body></text> </q> |
|
引用された米国議会の決議の終わりはこのようになる。 |
|
<p><hi rend='sc'>Whereas</hi> Section 217(a) of the Act of Congress entitled <title>An Act to encourage national industrial recovery, to foster competition, and to provide for the construction of certain useful public works, and for other purposes</title> approved June 16, 1933, provides as follows: |
|
次は段落の中に引用があり、引用自体、リストの埋め込まれた段落を含んでいる。 |
|
<q><p>Section 217(a) The President shall proclaim the date of <list type=ordered> <item n='(1)'>the close of the first fiscal year ending June 30 of any year after the year 1933, during which the total receipts of the United States (excluding public-debt receipts)exceed its total expenditures (excluding public-debt expenditures other than those chargeable against such receipts), or</item> <item n='(2)'>the repeal of the eighteenth amendment to the Constitution, </item> </list> whichever is the earlier.</p> </q></p> <p><hi rend='sc'>Whereas</hi> it appears from a certificate issued December 5, 1933, by the Acting Secretary of State that official notices have been received by the Department of State that on the fifth day of December, 1933, Conventions in thirty-six States of the United States, constituting three-fourths of the whole number of the States had ratified the said repeal amendment:</p> <p>Now, <hi rend='sc'>therefore, I, Franklin D. Roosevelt</hi>, President of the United States of America pursuant to the provisions of Section 217(a) of the said Act of June 16, 1933, do hereby proclaim that the Eighteenth Amendment to the Constitution of the United States was repealed on the fifth day of December, 1933.</p> <p><hi rend='sc'>Furthermore</hi>, I enjoin upon all citizens of the United States and upon others resident within the jurisdiction thereof, to co-operate with the Government in its endeavor to restore greater respect for law and order, by confining such purchases of alcoholic beverages as they may make solely to those dealers or agencies which have been duly licensed by State or Federal license.</p> <!-- ... --> <p>I call specific attention to the authority given by the 21st Amendment to the Constitution to prohibit transportation or importation of intoxicating liquors into any State in violation of the laws of such State.</p> <p>I ask the wholehearted cooperation of all our citizens to the end that this return of individual freedom shall not be accompanied by the repugnant conditions that obtained prior to the adoption of the 18th Amendment and those that have existed since its adoption. Failure to do this honestly and courageously will be a living reproach to us all.</p> <p>I ask especially that no State shall by law or otherwise authorize the return of the saloon either in its old form or in some modern guise. </p> <!-- ... --> <p><hi rend='sc'>In witness whereof</hi>, I have hereunto set my hand and caused the seal of the United States to be affixed.</p> <note resp='ed' place=inline><p>The 72d Congress, which convened following the 1932 election, passed the Twenty-first Amendment to the Constitution to repeal the Eighteenth Amendment.</p> <p> <!-- ... --> </p> </note> </div> |
|
これが撤廃宣言の終わりである。ここから、文書の終わりまでは同じ要領で続く。 |
|
<!-- ... --> </body></text> </tei.2> |
|
10 ソフトウェアここに記したタグ・セットを使って作った文書は、
この中で、第1と第3の方法は多くのユーザにとってとても便利なものであり、第1と第2の方法なら妥当な SGML 文書を作成できるだろう。第3の方法の主な問題点は、ワープロ形式から SGML への機械的変換は、大概ごく限られた SGML タグ・セットについてだけしか可能でなく、ワープロソフトのスタイル・シート機能をよほど厳しく制御して文書を作成したときにだけうまくいくものだということである。 SGML の必要な約束事を実践してみようという向きは、一通りの機能を揃えた専用の SGML エディタを使うほうがうまくいくだろう。 いったん作ってしまえば、 SGML 文書はさまざまな商用またはパブリック・ドメインのツールで処理することができる。そのすべてをここでリストアップすることはできない。これを書いている時点で、 SGML 関連ソフトウェアをいちばん手頃にまとめてあるのはオスロのスティーブ=ペッパー (Steve Pepper) のホームページ Whirlwind Guide to SGML Tools であり、インターネットで ftp.uio.no から ftp を利用できる。(もし ftp が分からなかったり、この段落がそもそも技術用語の羅列に思えたりする時は、学校のコンピュータ・センターか、そういうセンターのサポートを受けられないユーザのための数ある最近のインターネット・ガイドなど、どれかしら当たってみるといい。)いちばん人気のあるパブリック・ドメインのツールは、ジェイムズ・クラーク (James Clark) がチャールズ・ゴールドファーブ (Charles Goldfarb) の書いたプログラムをもとに作った sgmls パーサだ。 SGML 文書を処理するために sgmls を使うには、一般に標準で出力される処理結果を読むためのプログラムを書く必要が出てくるが、 SGML 文書の妥当性を調べる目的ならプログラマでなくても使える。(これを試してみたいなら、 TEI のファイル・サーバを調べて、 sgmls のセットアップや検証ソフトとして動かす作業を簡便化してくれるDOS のバッチ・ファイルか、UNIX のシェル・スクリプト、その他システムに合った処理ファイルを探してみてほしい。困ったら、 TEI-L にメールで助けを求めればいい。) SGML ツールで sgmls を下処理に使うものは増えつづけているので、自分ではプログラムを書くつもりがまったくない人にとってもsgmls のコピーを入手することは意味がある。 |
|
11 このサブセットの要約
入門タグ・セットの要素
形式的宣言TEI 入門サブセットは、出版された TEI コーディング方式と完全互換のサブセットである。このサブセットに従って作ったテキストは出版された TEI DTD に適合する。サブセットは、TEI 文書内で当たり前のように使われる要素を抑えることで排他的に定義してある。この抑制は、bb.ent ("bare-bones entities") の名で TEI ファイル・サーバから利用できる DTD の断片によって可能となった。 |
|
|