"構造化テキスト"ってなあに?

2000年6月4日(日)更新


■単純テキスト

さらら: ねぇ、たけち。あんまり難しいこと言わないでよね。

たけち: うっ、う〜ん。どうしようかなぁ・・・・じゃあ、万葉集のテキストを例にとって説明するね。次のテキストを見てくれる。万葉集の一部なんだけど。

さらら: うん。あら、私の歌ね。

たけち: これは文字だけだから「テキスト」だって前回言ったよね。

さらら: あっ、そうそう。(そうだったっけ... (^ ^; )

さらら

万葉集テキストの一部(単純テキストの場合)

藤原宮御宇天皇代 高天原廣野姫天皇 元年丁亥十一年譲位軽太子 尊号曰太上天皇 天皇御製歌

春過而 夏来良之 白妙能 衣乾有 天之香来山

春過ぎて夏来るらし白栲の衣干したり天の香具山


■構造化テキスト

たけち: じゃあ、次のテキストを見てくれる。

さらら: なんだか、HTMLみたいな感じね。これが、「構造化テキスト」なの?

たけち: うん。ある意味では、HTMLだって「構造化テキスト」なんだよ。「構造化テキスト」って、テキストを色々な参照の仕方をする上で重要な項目を識別できるようにしたテキストを言うんだ。さららの歌の例では、歌をひとつのunitにして、preface(題詞のつもり)、poem-body(歌の本文)にわけて歌の構造を表現してみたんだ。次の図に載せておくね。

万葉集テキストの一部(構造化テキストの場合)

<poem-unit>

<preface>藤原宮御宇天皇代 高天原廣野姫天皇 元年丁亥十一年譲位軽太子 尊号曰太上天皇 天皇御製歌 </preface>
<poem-body>
<genbun>春過而 夏来良之 白妙能 衣乾有 天之香来山</genbun>
<yomi>春過ぎて夏来るらし白栲の衣干したり天の香具山</yomi> </poem-body>

</poem-unit>

構造を図で表してみると・・・

さらら

さらら: 構造化テキストかぁ。図で見てみるとなんとなくだけど、わかったわ。

たけち: この例で使っている、<preface>とか</yomi>の"テキストを識別するためにつける特別な印(しるし)"を「タグ(tag)」って言うんだ。こうして、テキストを表現しておくといろいろと便利なことがあるんだよ。

さらら: でも、たけちは、「HTMLも構造化テキスト」だって言ったわよね。デモ、今の例はたまたまなのかも知れないけど、HTMLとはずいぶん違う感じもするし、ただ「タグ」の名前を変えただけのような気もするけど。こうすると何がいいのかよくわからないわ・・・

たけち: そうだね。じゃあ、次回からはそのあたりについてお話しようね。

→次へ (^ ^)v


(注-1): このページでは、一般的に「構造化ドキュメント(structured document)」と言われていることについて説明をしています。ただ、対象を、万葉集、続日本紀などの古典テキストとしていますので、ここでは「構造化テキスト」という言葉を使っています。

(注-2): タグ(tag)」は、商品などについている値札のようなものを想像していただけると良いと思います。「荷札」でもいいですね。