オンライン・システム・ニュースレター No.66 (1999.03.15)


目録システムの中国語資料対応に伴う留意点


はじめに


目録システムの中国語資料対応については,本誌No.65(1998.12.25)で,基本的な考え方や移行計画の概要を紹介し,中国語資料取扱いの「検討案」を公開して御意見を募集しました。寄せられた御意見については,現在集計及び分析作業を行っているところです。


一方,「検討案」への御意見の他に,平成12年1月以降,各参加機関の図書館システムへの影響はどの程度でるのか,登録業務がどのようになるのか等についての質問も,多く寄せられています。


そこで,平成12年1月に目録システムのサーバにUCSが採用された場合に,これまでの図書館システムでの登録業務への影響として想定されるものを,1)検索,2)表示,3)データ入力の3点から紹介します(5頁の参考図も参照してください)。これらについては,システムが開発中であること,さらには「検討案」が確定していないことから,今後,内容が変更される場合もありますので,その点はあらかじめおことわりしておきます。


なお,さらに質問のある方は,「検討案」への御意見と同様の方法で質問をいただければ,FAQ(準備中)や,本誌で紹介していきます。


 

1) 検索


中国語資料の場合,基本的に漢字形,日本語のヨミ,ピンインから検索できます。しかし,ピンインの入力を必須にすると登録時の負荷が高くなるため,入力選択項目としましたので,ピンインによる検索には,検索漏れの可能性があります。また,日本語のヨミも,本来外国語である中国語に対して与えるため,どのように規則を決めても,「ゆれ」が発生するのは避けがたいと考えられます。このため,再現率が最も期待されるのは漢字形ということになります。ただし,UCSの統合漢字部分には20,902字が含まれており,似た形や同じ意味の漢字が多くあります。


このことによる検索漏れを防ぐために,漢字統合インデクスを準備しました。これによって,登録データそのものは,資料に表示された文字がそのまま転記されますが,統合された文字によってインデクスが形成され,それによって検索されますので,重複レコード作成の主な原因の一つである検索漏れはなくなります。例えば,「叢書」を検索語にすると,サーバ上の登録データでは「双書」あるいは「    」となっている資料もヒットします。この検索は,下図のような手順で実行されます。


検索処理手順


このように,日本語の異体字ばかりでなく中国語のものも検索されるなど,現在より多少ノイズが増えることになります。したがって,日本語のものだけ,中国語のものだけを検索したい場合は,言語コードとの論理積をとる必要があります。


 

2) 表示


サーバからクライアントにデータを転送する際,クライアントが対応している文字コードにあわせて,データを変換(エンコーディング)します。現在のCATP仕様書では,エンコーディングとして,「JIS7」(JISX0201,X0208及びEXC)にしか対応していませんが,「GB2312」(簡体字中心の文字セット),「UTF8」(UCSの実装で最も普及しているもの)等にも対応するためのシステム開発を行っています。エンコーディングの際に,相手の文字セットに対応する文字がない場合は,その文字のUCS番号の先頭に「U」をつけて,「◆」(黒菱)で囲んだ形にします。


先ほどの「叢書」等は,各クライアント向けのエンコーディングでは,次のようになります。

双書

叢書
JIS7 双書 叢書 ◆U4E1B◆◆U4E66◆
GB2312 双◆U66F8◆ ◆U53E2◆◆U66F8◆
UTF8 双書 叢書


現行の目録端末は「JIS7」対応ですので,表中の「JIS7」のように変換され,そのまま表示されます。また,現在開発済である新CAT/ILLクライアントも,同様に表示されることになります。しかし,今後開発されるクライアントにおいては,渡された文字列をどのように表示するかを,各クライアントで決めることができます。渡された形式のまま「◆」で囲んで表示する方法,システム外字として登録してある対応文字に置き換えて表示する方法,対応する文字の画像イメージを表示する方法等が考えられます。ただし,システム外字や画像イメージに置き換えた場合は,総合目録データベースの検索や更新のため,サーバへデータを転送する際には,元の「◆」で囲まれた形式に戻すことが必須となります。


なお,新設される「その他のヨミ」フィールドを表示するためには,新規に,これに対応したクライアントを準備する必要があります。現行CATの目録端末には,サーバからこのデータが送信されませんので,表示できません。新CAT対応クライアントについては,サーバ側でのフィールド新設への対応がどうなっているか,各メーカに確認する必要があります。


 

3) データ入力


各目録端末及びクライアントで扱うことのできない文字のうち,UCSにあるものについては,「◆」で囲んだ形式で入力すると,サーバ上では対応するUCSコードに変換して登録することができます。UCSにない文字については,これまでと同様,大漢和辞典や広漢和辞典の検字番号を使う等の方法で入力することになります。※


このため,中国語資料のうち,簡体字で表示されているものを登録するには,現行の「JIS7」対応クライアントでは,「◆」で囲まれた形式でのコード入力を行うことが多くなってしまいます。従って,この場合は,「GB2312」または「UTF8」に対応したクライアントが効率的です。さらに,文字の入力方法等の環境を考えると,現在は「GB2312」に対応したクライアントが最も現実的なものといえます。学術情報センターでは現在,中国語WindowsやSolaris環境で動作する「GB2312」に対応したクライアントを開発中で,このクライアントにより使い勝手や入力効率を調査することにしています。なお,「GB2312」には,カタカナが含まれていますので,日本語のヨミはそのまま表示されます。


データ入力の際に,もう一点注意しなくてはならないのは,現行CATやサーバ側のフィールド新設に対応できないクライアントでは,「その他のヨミ」フィールドが表示されないため,該当のフィールドにデータがあった場合,その書誌レコードを更新できない仕組みになっていることです。もちろん,単に書誌情報(「その他のヨミ」フィールド以外)を確認して所蔵レコードを登録することはできます。さらに,「その他のヨミ」は入力選択項目ですので,これを入力しないで書誌レコードを新規作成することも可能です。ただし,このように作成されたレコードに対して,「その他のヨミ」フィールドにデータの追加修正が行われると,作成館であっても現行CATや非対応クライアントからはその書誌レコードの修正ができなくなります。


なお,漢字統合インデクスが準備されるため,これまで新字体と旧字体との間で検索漏れが発生しないことだけを目的に入力されていた「その他のタイトル」については,作成する必要がなくなります。


※「今昔文字鏡」,「ATOK」等の市販ソフトで,UCSコード番号を調べることができます。

 


おわりに


以上のように,平成12年1月以降,目録システムのサーバがUCSに対応しても,現在使っている現行CAT対応の目録端末や新CAT/ILLクライアントでの業務は,継続して行うことができます。ただし,中国語資料を扱う場合,検索ではあまり影響がありませんが,表示とデータ入力では,使い勝手の面でいくつかの問題が発生することが考えられます。学術情報センターとしても,これらの問題に対して可能な限りのフォローを検討していきますが,根本的な解決策は,中国語資料を扱う各参加機関が,UCSの採用を含む今回の目録システムの改訂に対応していただくことです。ぜひとも検討をお願いいたします。


目録システムの中国語対応に関するご質問は、下記宛にFAXあるいはE-mailでお願いします。 FAX宛先: 学術情報センター, 03(3944)7131
E-mail: catadm@op.nacsis.ac.jp
目録システムの中国語対応の概要図