HTML では <HEAD>〜</HEAD> に文書に関する情報を記述する。Hop step HTML の Sextion 17 で紹介した <META> がその1つである。
日本語の文字化けを防ぐために HTML を書いた文字コードを
| <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=(文字コードセット)"> |
のように指定するのは前にも述べたとおりである。これは日本語に限らず,多くの言語で対応する文字コードセットを指定する。たとえば,
| 日本語 | iso-2022-jp | JIS。日本工業規格標準の文字コード。 |
|---|---|---|
| shift_jis | シフト JIS。主にパソコンの文字コード。Netscape Navigator との互換性のため,ふつう x-sjis と書く。 | |
| euc-jp | EUC。UNIX ワークステーション拡張文字セット。Netscape Navigator との互換性のため,ふつう x-euc-jp と書く。 | |
| 欧文 | iso-8859-1 | 欧文 ASCII 文字セット。 |
| iso-8859-2 | 中央ヨーロッパ系 ISO 文字セット。 | |
| 中国語 | big5 | 伝統的な中国語文字セット。 |
| gb2312 | 中国語略字体文字セット。 | |
| 韓国語 | euc-kr | EUC の韓国語文字セット。 |
| iso-2022-kr | ISO の韓国語文字セット。 |
ただし,中国語・韓国語などは相手側システムがフォントを持っていなければ,いくらやっても文字化けである。
英文で WWW 発信を試みようとするとき,誤って日本語の文字が混入してしまうことがある。このときに文字セットを欧文にしておけば日本語文字が化けるので見つけることができることもある。
相手に手数をかけず,効率的に情報を送るためにも,文字コードセットの1行は必ず入れるようにしたい。
サーチエンジンには,WWW 上を自動巡回して情報を収集するロボットと呼ばれるプログラムを利用しているものがある。これらが自分のデータベースに情報を収めるさい,適当な文書情報をこちらから与えることができる。書式は,
| <META NAME="..." CONTENT="..."> |
NAME 属性の値が「情報の種類」,CONTENT 属性の値は「その内容」である。
NAME 属性には主に次のようなキーワードを指定して情報を与える。
| title | 文書のタイトル。 |
| author | 文書の著者。 |
| keywords | 文書に対するキーワード。複数の場合はカンマで区切る。 |
| description | 文書に対する記述。簡単な紹介など。 |
たとえば,この More About HTML のトップページの <HEAD>〜</HEAD> には次のように書かれている。
| <HEAD> <TITLE>More about HTML - Introduction</TITLE> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=x-sjis"> <META NAME="author" CONTENT="Studio HEXANE"> <META NAME="title" CONTENT="More about HTML : もっともっと HTML"> <META NAME="keywords" CONTENT="HTML,HTML Tutorial,authoring WWW pages"> <META NAME="description" CONTENT="HTML Tutorial(Japanese) : インタラクティブな表現や情報の効率よい伝達のための HTML チュートリアル。"> </HEAD> |
現在,サーチエンジンではこれがあると検索に圧倒的に有利になるというほどではないが,検索の参考にはなっているようである。とくに Infoseek では description があれば抜粋の代わりにページの紹介文として表示される。
ともかく,発信者は適当な情報を与え,受信者は効率的に検索をして目的のページにたどり着くという環境を望みたい。