オンライン・システム・ニュースレター No.70 (2000.3.17)


多言語対応目録システム移行後における検索・登録時の注意事項


多言語対応目録システムへの移行後,特定の文字種についてはシステム上の取扱いが異なるようになりました。それらの文字について,検索・登録上の注意事項を以下にまとめましたので,御確認ください。

1. 検索時の注意事項

文字種

インデクス

注意事項

共通

1) 目録システム用文字セット(以下「文字セット」)に含まれない文字
 

これまで通り,基本辞書の番号やLC方式の翻字形を黒菱(◆)で囲んだ形となっている。
 

これまで通り,基本辞書の番号やLC方式の翻字形を黒菱(◆)で囲んだ形で検索する。
2) 文字セットには含まれているが,使用するクライアントがサポートするエンコーディングに含まれない文字 正規化処理後のUCS文字となる。 Uを冒頭につけたUCS番号を黒菱(◆)で囲んだ形,もしくは,正規化されているものであれば正規化された形で検索する。
漢字以外

1) 踊り文字とデリミタ

 
 

文字セットの範囲外となった特殊アルファベットと制御文字以外は,従来通りであり,黒菱(◆)も踊り文字のままである。
 

踊り文字はそのまま入力する(ただし,長音,ダッシュ,ハイフン,負記号は正規化処理により除去される)。

デリミタは検索の対象とならない。
2) 従来のEXC文字

A) 対応するラテン文字があるもの

B) 対応するラテン文字のないもの(アイン・アリフ等)
 

これまで通りその文字にインデクスが正規化されている。
システム移行後はトルツメ処理に仕様が変更された。
 

対応するラテン文字で検索する。

これまで該当する文字コードで検索していたが,トルツメで検索する。
3) 従来のEXC文字ではない拡張ラテン文字・拡張キリル文字等   A) 拡張ラテン文字

 

 

 

B) 拡張ラテン文字以外の拡張文字
対応するラテン文字・キリル文字等への正規化処理をしていない。

カノニカルオーダリングによる正規化処理を行っているので,「基底文字と結合文字との組み合わせ」に対応する「合成済文字」があれば,合成済文字に正規化される。

カノニカルオーダリングによる正規化処理を行っていないので,「合成済文字」とそれに対応する「基底文字と結合文字との組み合わせ」は別の文字として扱われる。
該当する文字コードのままで検索する必要がある。

 

「基底文字と結合文字との組み合わせ」あるいは対応する「合成済文字」のどちらでもよい。

 

「合成済文字」で検索できない場合は,対応する「基底文字と結合文字との組み合わせ」で検索する。

 
4) ピンイン

 

 

 
現在は,ストップワードについて言語別に対応していないので,ピンインがストップワードに該当する場合,インデクスとはならない。 現在のところ,検索することはできない。
漢字

1) 「JISX0208:1997」の包摂規準で包摂される文字
 

包摂する文字として扱われる。
 

包摂を意識せずに検索してよい。

 
2)「漢字統合インデクス」で正規化されているもの 同じ文字として扱われる。 漢字統合インデクスを意識せずに検索してよい。

 
 

2. 登録時の注意事項

文字種

登録時の処理

注意点

共通

1) 目録システム用文字セット(以下「文字セット」)に含まれない文字
 

ゲタ(〓)に置換される。
 

これまで通り,基本辞書の番号やLC方式の翻字形を黒菱(◆)で囲んだ形で登録する。
2) 文字セットには含まれているが,使用するクライアントがサポートするエンコーディングに含まれない文字 Uを冒頭につけたUCS番号を黒菱(◆)で囲んだ形で登録すると,UCS文字として登録される。

 
Uを冒頭につけたUCS番号を黒菱(◆)で囲んだ形で登録することを原則とする。
3) 文字セットには含まれているが,存在するどのクライアントでも表示できない文字  

 
文字セットに含まれない文字に準じて登録することができる。
4) 文字セットに含まれ,一種類以上のクライアントで表示することもできるが,使用するクライアントがサポートするエンコーディングに含まれない文字  

 
暫定的に,文字セットに含まれない文字に準じて登録することができる。

ただし,すでにUCSで登録され,Uを冒頭につけたUCS番号が黒菱(◆)で囲まれて表示されているものを,この方法で修正してはならない。
漢字以外

1) 拡張ラテン文字

 
 

「合成済文字」が存在する場合,「基底文字と結合文字の組み合わせ」で登録してもカノニカルオーダリングによる正規化処理によって「合成済文字」に置換される
 

「合成済文字」,「基底文字と結合文字の組み合わせ」どちらで登録してもよい。

 
 

2) 拡張ラテン文字以外の拡張文字

 
 

カノニカルオーダリングによる正規化処理を行っていない。
 

記述された文字に最も近い文字で登録しなくてはならない。

 
漢字

1) 「JISX0280:1997」の包摂規準で包摂される文字

 
 

文字セットに含まれていても,包摂する漢字に自動的に置換される。
 

包摂を意識せずに,記述された文字で登録してよい。
2) 文字セットには存在するが,使用するクライアントがサポートするエンコーディングに含まれない漢字   暫定的に,該当のクライアントで扱える対応する漢字に置き換えて登録することができる。

ただし,本来の漢字で登録されているデータをこの方法で修正することはできない。

3. 用語解説

踊り文字/デリミタ/特殊アルファベット/制御文字/EXC文字/ストップワード

→ 「目録システム利用マニュアル検索編 第4版」参照   目録システム用文字セット/包摂規準

→ 「目録情報の基準 第4版」参照

カノニカルオーダリング/合成済文字/基底文字/結合文字

→ UCSでは,文字の中には,いくつかの要素に分けることのできるのものがあるとしている。例えば,カタカナの「ガ」は,「カ」と濁点「゙」に分けることができ,ドイツ語の記述によく使われる「ë」は,「e」とウムラウト「¨」に分けることができる。この場合,「カ」や「e」を基底文字,濁点やウムラウトを結合文字,「ガ」や「ë」を合成済文字という。

そして,基底文字の直後に結合文字が記述されている場合,その文字列は対応する合成済文字と同じ文字として扱う。なお,結合文字は一文字とは限らず複数のものが記述される場合がある。結合文字が二文字の場合は,全てが合成済のもの,最初の結合文字と合成済でその直後に二つ目の結合文字のあるもの,基底文字と結合文字二つが記述されているものの3通りの記述方法があることになる。ただし,出現が予測される全ての合成済文字にコードポイントを与えているわけではないので,コード表を確認する必要がある。従来のEXC文字の中にも,1文字で対応するものがUCSにない場合があるので,注意しなくてはならない。

多言語対応サーバの中では,以上のような,いくつかの記述方法が許されている文字について,一つの記述方法に統合する処理を行っており,この処理によってカノニカルオーダリング(Cannonical Ordering)を実現している。

→ EXC文字/UCSコード対応表,拡張ラテン文字定義表(EXC文字以外)のHP

http://www.nii.ac.jp/CAT-ILL/INFO/newcat/jissou_siyo/catp11-kai.html
漢字統合インデクス

→ UCSには,現在の版においても,2万902字の漢字が含まれている。これらの漢字には,旧字と新字,繁体字と簡体字のように,互換性のあるものが含まれている。漢字を使って検索しようとした場合,そのままだと,互換性のある漢字のうちどの漢字が記述に使われているのかを確認するか,全ての組み合わせを試みなければ,検索漏れが発生する。

このため,互換性のある漢字についてインデクスを統合し,検索の際に検索語の漢字にも同じ統合処理を行い,検索漏れの発生を防ぐこととした。

統合のためのテーブル作成作業は,総合目録小委員会の委員に委嘱したが,その際の参考資料として,以下のものが報告されている。

・「日本工業規格 国際符号化文字集合(UCS)−第一部 体系及び基本多言語面」JIS X0221-1995(ISO/IEC 10646−1:1993) (日本規格協会,1995)

・「JIS漢字字典」芝野耕司編著(日本規格協会,1997)

・「同音漢字の書き換えについて」(「国語表記実務必携」改訂版 文化庁国語課国語研究会編集,ぎょうせい,1992)

・「JIS漢字における国字・新字・異体字の典拠―JIS漢字幽霊文字研究序説」笹原宏之(「文化女子大学紀要.人文・社会科学研究」第3集,1995.1)

・「中華人民共和国国家標準信息交換用漢字編碼字符集基本集 GB2312-80」(GB基本集)(技術標準出版社,1981)

 

この他,「歳」と「才」など,字典類を参照して気がついたものが統合されている。ただし,この「歳」と「才」でも明らかなように,統合されたものが完全互換なわけではない。年齢の単位の場合には互換性があるが,「才能」の意味の場合等には互換性がない。このように,今回の統合インデクスは,検索漏れを防ぐことを目的としているため,かなり広い範囲で統合を行っているといってよい。

この方針については,すでにいくつか問題点の指摘も受けているが,実際の運用を行った上で,改良の是非を検討することとしたい。

→ 漢字統合インデクスについてのHP

http://www.nii.ac.jp/CAT-ILL/INFO/newcat/kanji/kui_about.html

 

(図書目録情報係)