Section 13 : 文書情報の基礎

 突然意味不明の文字が表示されて(いわゆる“文字化け”)とまどったことはないだろうか。この“文字化け”の回避はどのようにしたらよいのだろうか。また,WWW ページを作ったら自分のほうからサーチエンジンに情報を提供するにはどうすればよいのだろうか。

文字コードセット

 たとえば日本語では漢字を表現しなければならないが,この漢字に番号(コード)をつける方法がいくつか存在する。通常は,ブラウザが“その番号づけ方法らしい”特徴を見つけて,それに合わせて解釈するのだが,ときどきうまくいかないことがある。そのときに“文字化け”が発生してしまう。ようするにブラウザが誤った“文字番号→文字変換表”を使ってしまうのである。

 これを回避するには,前もって文書中に“このファイルではこの‘文字番号→文字変換表’を使いなさい”と指示してやればよい。

 これは <HEAD>...</HEAD> の中で <META> を使って記述する。通常,2 つの属性の値を組にしてさまざまな機能を実現する。書式は“ここに”という形で,

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=(文字コードセット)">

 この(文字コードセット)が“文字番号→文字変換表”である。日本語では大きく分けて 3 つ文字コードセットがある。これは日本語に限らず他の多くの言語でも同様で,対応する文字コードセットを指定する。たとえば,

文字コードセット
言語文字コードセット解説
日本語iso-2022-jpJIS。日本工業規格標準の文字コード。日本語の HTML は,これで書くのが好ましいとされる。
Shift_JISシフト JIS。おもにパソコンの文字コード。Netscape Navigator との互換性のため,x-sjis と書くこともある。
EUC-JPEUC。UNIX ワークステーション拡張文字セット。Netscape Navigator との互換性のため,x-euc-jp と書くこともある。
欧文iso-8859-1欧文 ASCII 文字セット。
iso-8859-2中央ヨーロッパ系 ISO 文字セット。
中国語big5伝統的な中国語文字セット。
gb2312中国語簡字体文字セット。
韓国語euc-krEUC の韓国語文字セット。
iso-2022-krISO の韓国語文字セット。

 ただし,中国語・韓国語などは相手側の閲覧環境でそれらの言語の文字が表示できるようになっている必要がある。

 また,英文で WWW 発信を試みようとするとき,誤って日本語の文字が混入してしまうことがある。このときに文字セットを欧文にしておけば,日本語文字が“化ける”ので見つけることができる。

 当然のことながら,HTML ファイルで用いた文字コードと同一のものを指定しなければならない。この方法で文字コードを指定した場合は,間違って指定してしまうと正しく表示されないので,正確を期さねばならない。

<HEAD>
<TITLE>...</TITLE>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
</HEAD>

 これによって,そのファイルの文字コードセットはシフト JIS に指定される。

受信者に手数をかけず,効率的に情報を送るためにも,文字コードセットの 1 行は必ず入れるようにしたい。

文書情報

 サーチエンジンには,WWW 上を自動巡回して情報を収集するロボットと呼ばれるプログラムを利用しているものがある。これらが自分のデータベースに情報を収める際に,適当な文書情報をこちらから与えることができる。書式は,

<META NAME="..." CONTENT="...">

 NAME 属性の値が“情報の種類”,CONTENT 属性の値は“その内容”である。NAME 属性には,おもに次のようなキーワードを指定して情報を与える。

title
文書のタイトル。
author
文書の筆者。
keywords
文書に対するキーワード。複数の場合はカンマで区切る。
description
文書に対する記述。簡単な紹介など。

 たとえば,Academic HTML のトップページの <HEAD>...</HEAD> には次のように書かれている。

<HEAD>
<TITLE>Academic HTML</TITLE>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
<META NAME="author" CONTENT="Studio HEXANE">
<META NAME="title" CONTENT="Academic HTML">
<META NAME="keywords" CONTENT="HTML,HTML Tutorial,authoring WWW pages">
<META NAME="description" CONTENT="HTML Tutorial(Japanese)">
</HEAD>

 <META NAME="..." CONTENT="..."> を参考に文書情報を収集しているロボット型サーチエンジンには,InfoseekODIN などがある。ともかく,発信者は適当な情報を与え,受信者は効率的に検索をして目的のページにたどり着くという環境を望みたい。


◆Summary

 <HEAD>...</HEAD> の中にはタイトル以外にも,<META> を使って文字コードや文書の簡単な紹介など,さまざまな情報を書くことができる。