オンライン・システム・ニュースレター No.69 (1999.12.20)


多言語対応目録システム運用開始に伴うシステム変更点


平成12年1月からの多言語対応目録システム運用開始に伴う,システム的な変更点について解説します。

今回の主な変更点は,次の4点となります。

(1) データベースのUCS化
(2) 漢字統合インデクスの使用
(3) 新設されるフィールド
(4) CHINA-MARCの導入

図書館側のクライアントが,CAT/ILLシステムにどこまで対応しているかによって,これら変更機能が利用できるかどうかが決まります。これを,一覧表にして示します。

    旧CAT/ILL 新CAT/ILLシステム
    システム

CATP/1.0
クライアント
CATP/1.1
クライアント
(1) データベースのUCS化
(2) 漢字統合インデクスの使用
(3) 新設されるフィールド その他のヨミ × ×
  IDENT
(4) CHINA-MARCの導入 × ×

新CAT/ILLシステムのCATP/1.1とは,今回の多言語対応のために改訂したCATP(新CAT/ILLシステムプロトコル)です。表に示すように,図書館クライアント側で多言語対応機能を全て利用するためには,このCATP/1.1に対応する必要があります。

なお,多言語対応システムの詳細については,下記の技術資料を参照してください(URL:http://www.cat.op.nacsis.ac.jp/INFO/newcat/index.html)。

・CATP/1.1仕様書(暫定版)
・CATP/1.1サーバ(多言語対応サーバ)実装仕様解説
・データベースフィールド定義

次に,各変更点について解説します。

1. データベースのUCS化

多言語対応データベースで使用する文字セットを,EUCからUCSに変更します。このデータベースで使用するUCSは,以下の仕様となっています。

・従来のEXC文字を含む
・UCSの実装水準は,「実装水準3」とする。これは,EXCの全てを表現するのに,合成文字を使用するためである。
・JIS X0208:1997の漢字包摂規準を採用する。

データベースの文字セット(UCS)とクライアントが使用する文字セットとが異なる場合,サーバ側で文字コード変換を下図のように行います。

この文字コード変換は双方向の変換であり,サーバ側が受信する時とサーバ側が送信する時の両方で実行されます。

利用者のクライアントの文字セットに変換できない文字は,「◆Unnnn◆」というように,◆でUCSコード値(nnnnの部分)をはさんだ形に変換されます。

多言語対応サーバによる文字コード変換の図

多言語対応サーバで使用する文字セットについて

1. 目録システム用文字セット

目録システムで扱うことができる文字・記号は次の通りである。

(1) 文字 ISO/IEC 10646-1:1993(JIS X0221-1995) 及び Amendment 1-9 (UNICODE2.0相当)に規定されている文字(以下,「UCS」という)。
ただし,漢字については,JIS X0208:1997の包摂規準を適用する。
このため,異なる区点位置を持っていても,使うことのできない漢字がある。
(例:◆U9AD9◆<はしご高>は,◆U9AD8◆<くち高>に置き換わる)
また,UCSに規定されている文字であっても,実在するクライアントで扱うことができない文字は利用できない(扱える文字は,学術情報 センターで確認の上広報する)。
(2) 記号 JIS X0208:1997に規定されている記号。
(ローマ数字等ここに規定されていないものは,使用できない)
2. 従来の目録システム用文字セットにはあるが,今後使えなくなる文字・記号

次の文字・記号は,多言語対応システムでは使用できない。

(1) 制御文字6種: EE21〜EE26 (合成開始/合成終了/上つき開始/上つき終了/下つき開始/下つき終了) (2) 記号1種:DF21 (レジスターマーク:[○R]の合成文字)
3. 外字の扱い 1.に含まれない文字・記号は,以下のように扱う。

(1) 基本辞書(大漢和辞典・広漢和辞典)にある漢字 黒菱で囲み大漢和辞典を利用する場合は,Dの後に検字番号,広漢和辞典を利用する場合は,Kの後に検字番号を記入する。
(例:◆D00092◆
(2) LCの翻字形のある非漢字 黒菱で翻字形を1字ごとに囲んで記入する。
(例:◆Gh◆<チェチェン語>,ただしGは,Superior-dot/G)
(3) 基本辞書にない漢字及びLCの翻字形にない非漢字 黒菱二つを連続して入力し,情報源のコピーを学術情報センターに送付し,入力したレコードについて報告する。
(例:◆◆)
(4) 図形情報,及び1(2)に含まれない記号 必要に応じて,説明語句に置き換え角がっこに入れる。
さらに,注記において説明を加えることもできる。
4. システム外字が入力された場合の扱い すべて,◆U3013◆<ゲタ記号(〓)>に置き換わる。
すでに入力済のローマ数字・丸付数字等も,ゲタ記号になる。

2. 漢字統合インデクスの使用

UCSのCJK統合漢字部分には,約2万字の漢字が含まれており,似た形や同じ意味の漢字が数多くあります。このことによる検索漏れを防ぐため,似た形や同じ意味の漢字を含めて統合検索を可能とするのが,漢字統合インデクスです。

例えば,旧字「音樂」で検索しても,新字「音楽」で検索しても,同一の結果が得られることとなります。この漢字統合インデクスは,旧CATシステムでも機能します。

よって,従来,検索漏れを防ぐために作成していた,旧字あるいは新字の「その他のタイトル」や「から見よ参照」は,作成する必要がなくなります(ただし,各図書館で必要な場合は,従来どおり作成してもかまいません)。

3. 新設されるフィールド

今回新設されるフィールドには,大きく2種類あります。一つは,多言語対応に関わる「その他のヨミフィールド」群であり,もう一つは,インターネット上のコンテンツ(電子ジャーナル)のURL等の記録に使用するIDENTフィールドです。

(1) その他のヨミフィールド

多言語対応に伴い,その他のヨミフィールドを新設します。

各データベースの主にタイトル関係の各フィールドグループに,その他のヨミフィールドを追加し,中国語のピンイン等を入力できるようにします。

ただし,中位の書誌のその他のヨミは,PTBNOに格納します(従来のクライアントでも,ここに入力可能ですが,その他のヨミは入力しないでください)。

これらのフィールドは,CATP/1.1に対応した新CATクライアントでなければ,表示することも,入力することもできません。

従来のヨミフィールドに,二つ目の区切り記号(||)を使って混在させることのないよう,注意してください

(2) IDENTフィールド

電子ジャーナルのURLなどのアクセス方法を記録するために,IDENTフィールド(Identifier:資源識別子)を新設します。

IDENTフィールドは,CATP/1.1に対応した新CATクライアントのほか,旧CATシステムでも表示・入力が可能となります。

IDENTフィールドの使用方法については,目録所在情報サービスにおけるインターネット上のコンテンツ(電子ジャーナル)の入力規準が決まり次第,お伝えします。

4. CHINA-MARCの導入

CHINA-MARCは,CATP/1.1に対応した新CATクライアントでのみ利用可能です。今までの新CATクライアント(CATP/1.0対応)や旧CATシステムでは利用できませんので,御注意ください。

データベース(参照ファイル)としての名称は,「CHMARC」となります。

(図書目録情報係)