|
||||||||||
TEI 紹介
|
||||||||||
(はしがき) 付録T 特殊文字 付録U ISO 639 言語コード 付録V UNIX におけるテキスト整形についての注 付録W 書き込み可能 CD-ROM 制作ガイド |
||||||||||
電子テキストセンターによる
|
||||||||||
TEILITE 版 1995年春
OTA 版改訂 1994年春 初版 1993年春 ここにまとめた SGML のガイドラインは、テキスト・エンコーディング・イニシアチブ (TEI) によるテキスト作成をこれから始めようという人のための手引きとするため、初めはヴァージニア大学電子テキストセンター部内文書として著し、その後公開したものである。この草稿は TEILITE.DTD という TEI タグ・セットをもとにしている。(*変換後の HTML 文書には、TEI Lite タグの跡は見られない。) 本書の範囲はタグやその使い方だけでなく、電子テキストと関連画像の処理についての提案にも及ぶ。ここで取りあげるテキストは当然ながらすでに何らかの電子的形式になっているものである。OCR(* Optical Character Reader: 光学式文字読み取り装置) によるスキャンに関する情報は電子テキストセンター (*the Electronic Text Center; the Etext Center)の作成したウェブ文書資料群の中に見出すことができる。 1 紹介ヴァージニア大学のオンライン電子テキストのコレクションは、どの本も標準汎用マーク付け言語(SGML)を用いてタグを施してある。 これは、テキストの構造的区分(扉・章・場・連、等)や印刷上の要素(活字面の変更・特殊文字、等)、その他テキストの特徴(文法的構造・挿絵の位置・異文、等)を記述するシステムである。 SGML のタグは、ASCII 文字データだけから成るので、特定のコンピュータ・プログラム専用のものではない。このため、例えば WordPerfect によって作成した文書のコードが WordPerfect プログラムに基づくもので、その中でしか意味を表さないのとはまったく異なっている。しかも、WordPerfect のコードではある語句をその外見(イタリック体など)によって定義するのに対し、SGML はもともとその語句の所属する情報の種類を記述するものである。イタリック体はさまざまの目的に使うものだが、SGML タグ・セットはたいてい、本の題名や章の見出しなどをもとに強調語句の働きを示すものなのである。 タグがこのようにテキストの構造を記録することにより、SGML 検索プログラムは特定要素の検索に絞り込むことが可能になる。小説で一つの章に絞って検索したくとも、テキストの中に章の区分を表すマークがなければ無理である。劇のある場に絞って引用句を見ようと思っても、場を区切っていなければ不可能なのだ。 章の題名がイタリック体で出てくる場合、次のようなタグ付けになるだろう。 <div type="Chapter" n=1> <head rend="italics"> Chapter Name </head> <p>[ここに章の本文がくる。]</p> </div> 注意すべき特徴
電子テキストセンターが使っているタグと処理方法は、人文科学のテキストのために SGML を実装したテキスト・エンコーディング・イニシアチブ(TEI)の一部である。我々はマイケル・スパーバーグ・マックウィーン(Michael Sperberg-McQueen)とルウ・バーナード(Lou Burnard)によって作られた TEILITE (*TEI Lite)という、 TEI タグを洗練、精選したサブ・セットに従っている。 センターの活動目的電子テキストセンターの目標は、ヴァージニア大学を含めた人文学研究社会で広く認知された電子テキストの正確な本文を広く提供することである。我々が入手、作成したテキストは SGML によるマーク付けを経てオンライン・アーカイブの一部となる。法規上問題がない場合には、WWW(the World Wide Web) を通じてこのオンライン・テキストを公開し、非営利目的の利用に供している。ウェブを通して利用できるテキストは、ユーザの閲覧要求があった時に「TEI→HTML」コンバータを通る。つまり、変換が「飛ぶがごとく」起こることになる。テキストをダウンロードする前には必ず使用条件を見てほしい。 これらのテキストの正確度と完成度、および正確な書誌的記述には相当の注意を払っている。書物の挿絵や他の視覚的資料(例えば特殊コレクションからとった原稿ページなど)も可能な限り収めている。そのような方針は長期間の運用に堪えるテキスト資源を構築するために不可欠であり、研究者も一般読者も正確でかつ魅力的なテキストを求めている。また、ユーザ社会を形成すること、支援者の要求に適したトレーニング、説明資料、サポート体制等を整備することなどに努力すべき点も同じく重要である。 使用するソフトウェアいうまでもなく、SGML テキストは「そのまま」読むために設計されたものではない。検索に際してはタグをデータベースの「フィールド」としてとらえ、結果を表示する際には印刷上の体裁を指示する一連の命令としてタグを解釈するようなソフトウェア・ツールを通して使うのが理想的だ。 我々がデータベースを索引化・検索するために現在使っているソフトウェアは、もともとオックスフォード英語辞典と共に使うためのツールだった「OpenText」検索エンジン(*カナダの OpenText社製 SGML ソフトウェア。UVa テキスト処理ソフトウェア〔訳〕も参照。)である。 このサーチエンジンは、ヴァージニア大学図書館(the UVa Library)に構築されたウェブ・インターフェイスを通して利用できる。ここで電子テキストセンター製「TEI→HTML」コンバータを使い、TEI テキストを「飛ばしながら」(*転送と同時に、の意。) HTML テキストに変換する。このおかげで TEI テキストを HTML 形式に改めた副本をサーバに保管しておく必要がなくなる。テキストは対象となる資料に適したタグ・セットで一度マーク付けするだけであり、なおかつウェブでアクセスすることも可能である。本学のオンライン蔵書中の中世英語と近代英語部門のテキストは、「TEI→HTML」変換過程を示した好例である。 2 ヴァージニア大学(UVa)における基本的なテキスト処理手順次に、UVa 電子テキストセンターにおけるテキスト処理の手引きについて順を逐ってまとめる。電子テキストは活字本もしくは手書き原稿に基づくことを大前提としている。このことは、今日まで我々が処理してきたテキストの大半に当てはまる。ここに述べる手順の正確な詳細は UVa 固有のものもあるが、一般的過程と前提条件は他の場所でも容易に真似ることができるはずである。
3 実用的な TEI タグ・セット大規模の区分と小規模の要素TEI ガイドラインは、2つの広義に定義された構造分類の間の区別を設けている。すなわち、主要な「構造区分」のマーカー(章など)とより小さな「要素」(段落、イタリック体語句、韻文の行、劇の個人の会話など)である。 主要構造区分このカテゴリーはテキストの主要な区切り(巻・章・節・場など)を含み、<div> </div> タグの組で区別する。連(スタンザ)・段落(パラグラフ)・ページのような小規模の区分には <div> は使わない。 ここで用意したテキストはすべて、大規模な区分を表す同一の基本セットを使う。それぞれのテキストは、初めにその全部を一組のタグ(<TEI.2> </TEI.2>)で括るが、これはテキスト・エンコーディング・イニシアチブの規則に従ったものである。<TEI.2> タグの組は、<teiHeader> と <text> という2つの主要な部(セクション)を囲んでいる。<teiHeader> は活字原典、電子版制作者、我々の加えた変更等についての情報を記録する。 <TEI.2> <teiHeader> [原文と処理に関する情報がここに来る。] </teiHeader> <text id=AusEmma> [「エマ」の一部となるすべての資料がここに来る。] </text> </TEI.2> <text> の区切りの中で、作品は主要部分(セクション)に分かれる。テキストにはどれも <body> があり、この中にテキストの主要部分が見出せる。中でも、この配列の働きにより、 <teiHeader> の中のテキストを除外して、テキスト中の <body> の中にだけある項目を検索することが可能になる。 <TEI.2> <teiHeader> [原文と処理に関する情報がここに来る。] </teiHeader> <text id=AusEmma> <body> [テキストがここに来る。] </body> </text> </TEI.2> <teiHeader> と <body> に加えて、他に2つの主要セクション(<front> と <back>)を持つテキストもある。前者は、前書きや目次のような前置きとなる事柄を囲み、後者は付録や索引などを区別するなどの使い方が典型的なものである。 <TEI.2> <teiHeader> [原文と処理に関する情報がここに来る。] </teiHeader> <text id=AusEmma> <front> [序文その他がここに来る。] </front> <body> [テキストの本体がここに来る。] </body> <back> [付録その他がここに来る。] </back> </text> </TEI.2> 【注意】 まれに、テキストは <body> でなく <group> でタグ付けすることを必要とすることがある。<group> タグは、特定の目的(例えば、短編物語の類話集)の単位と見なされる一続きの他と区別されたテキストをまとめるなど、複合的なテキストを囲む。この場合、テキストは各作品の集成という意味を保つため、<group> でタグ付けされるだろう。けれども、たいていの場合、このタグを使うことはない。 テキストの本文では、<div> は作品内の相互の階層的関係に基づいて連続的に番号を振る。我々の用法では、最も大きな構造区分は <div0> でタグ付けし、それに <div1>、<div2> その他のタグを続ける(TEI ガイドラインでは、<div> 構造に番号を振る初めは 0 ではなく 1 を使ってもよい。我々は <div> の最上位の要素として <div1> ではなく、あえて <div0> で始めているが、特に優れた理由があってのことではない。)例として、小説のある章はとかく <div0> でマーク付けされる最初の構造区分になることが多い。 <TEI.2> <teiHeader> [原文と処理に関する情報がここに来る。] </teiHeader> <text id=AusEmma> <body> <div0> 第1章 </div0> <div0> 第2章 </div0> <div0> 第3章 </div0> <div0> 第4章 </div0> </body> </text> </TEI.2> 章はどの作品でも初めから <div0> で番号づけするわけではない。もし複数の巻からなる小説だったら、章ではなく、巻が最大の内部構造区分となり、従って巻が <div0> 、章が <div1> となる。 <TEI.2> <teiHeader> [原文と処理に関する情報がここに来る。] </teiHeader> <text id=xxxxxxx> <body> <div0> 第1巻はここから。以下、章が続く。 <div1> 第1巻第1章 </div1> <div1> 第1巻第2章 </div1> <div1> 第1巻第3章 </div1> </div0> <div0> 第2巻はここから。以下、章が続く。 <div1> 第2巻第1章 </div1> <div1> 第2巻第2章 </div1> <div1> 第1巻第3章 </div1> </div0> </body> </text> </TEI.2> タグに付けることのできる属性タグはさらに「属性」を使うことによって拡張できる。属性は、開始タグの中に記述する成分である。ここに挙げたタグは、必要な場合、共通の属性をとることができる。
タグの中には、次のようにさらに属性を追加するものもある。
我々は、記述情報をダブル・コーテーション・マーク内の属性によって囲む。番号属性はただ一つ例外である。現在使用している検索・表示ソフトウェア OpenText は属性値を挟むシングル・コーテーション・マークを許していない。 属性とタイトルをつけた典型的な <div0> は、こんな感じになるだろう。 <div0 type="Chapter" n=3> <head> ヤマ場 </head> 主要構造区分用の共通属性次のものは散文用の代表的な単位であり、<div> タグ内で type= 属性により分けられる。
要素大きな単位でテキストの階層構造を表す構造的タグとは異なり、要素タグはテキストの個別的側面を表す。それは順番をつけた階層の一部ではない。普通の例では、印刷体裁の要素・標題・段落・行などをマーク付けするタグを含んでいる。要素タグの実例は、以下の節でまとめており、一段と拡張したリストはテキスト・エンコーディング・イニシアチブの『電子テキストのコーディングと交換流通のためのガイドライン』(Guidelines for Electronic Text Encoding and Interchange)で見ることができる。 印刷体裁の要素印刷体裁を TEI 流にマーク付けする方法は以下の通りである。
印刷体裁のマーク付けを扱う際には、TEI ガイドラインを参照したうえ、ローカルな方法で変形する。
<i>,<b>,<sc>その他は、検証の前に自動的に省略しない形に変換される。 語法的強調TEI では、<emph>タグを使うことで、語法的強調をただの活字面の変更とは別個のものとしてマーク付けできる。
具体例: <q><emph rend="italics">thousands</emph> of electronic texts.</q> 段落(パラグラフ)・リスト・行のまとまり
注記・注釈学術的な作品には、マーク付けの必要な注釈を含むものが多い。できる限り、注釈の本文は以下のような形で表すのがよい。
タグが文書中の他の場所へのポインタを含んでいることに注意。これは、原文が後注の形である場合、恐らく注記を処理するのに一番の早道である。本文内に注記を挿入するよりは間違いなく早い。次の例に出てくるが、target= と id= の値は同じものであることを確かめてほしい。前者が後者を指示する仕組みである。 本文中では<note target="n1.1.1m"> carmina qui quondam studio florente peregi,</note> テキストの他の場所では<note id="n1.1.1m"> qui:(I) who. studio florente: ablative absolute; studium: here, eagerness, enthusiasm. peregi; perago, accomplish, complete.</note> 特殊文字SGML システムは一定数の ASCII 文字によってテキストを表すので、この ASCII 文字種から外れる文字はどれも特別なタグで表さなければならない。特殊文字用タグはそれぞれ初めをアンパサンド(&)、終わりをセミコロン(;)で囲んだ短い説明語句でできている。上にグレーブ・アクセントのついた文字 a は à のようになるわけだ。ただし、アンパサンドは一つの特殊文字実体の始まりを示す文字でもあるため、この文字それ自体を表すには独自の文字実体(&)が必要となる。 よく使う特殊文字実体をマーク付けするために、本学では <hi rend="italics"> を <i> と省略するのと同じようなわけでそれらについて文字実体参照の省略形を使うことにした。次にいくつかの例を示す。完全なリストは付録を参照のこと。
空タグタグは組になるのが普通である。しかし、単独で使われるマーカーもある(空タグと呼ばれる)。散文の改行を表す <lb> (line-break)はその好例である。 <pb> の注: TEI タグセットでは、改ページは空タグであり、<pb n=1> のように n= 属性をとることが多い。 |
||||||||||
●本文に戻る。 /←[1]/ |
|
|||||||||
|