NACSIS-CAT/ILLニュースレター36号 (2012.12.25)



目録システムの正規化処理についての改修(報告)

  本誌35号(2012.6.29)でお知らせしました目録システム正規化処理について,改修を行い,平成24年11月にサーバへの実装を行いました。

  主な改修点は,以下のとおりです。

  1. 大文字小文字の正規化を行い,大文字・小文字いずれであっても検索を可能する。

  2. 複数の要素によって構成されている文字であって,個別の要素と文字全体についてそれぞれ文字コードが割り当てられているものは正規化・包摂を行う。

  3. 各文字種に固有の数字については,インデクスの正規化を行い,アラビア数字での検索を可能とする。

  4. 音標記号の付加された文字については,インデクスの正規化によって,音標記号の付加されない文字に揃え,いずれの文字においても検索を可能とする。なお,一部文字について既存の定義を変更した。

  5. アラビア文字のアリフおよびアインの翻字形について,正しくU+02BE,U+02BFで検索した場合でも,アポストロフィ(U+0027)を使用した場合でも,検索に漏れがないように,U+02BE,U+02BFを従前どおりトルツメ処理したインデクスとU+02BE,U+02BFをU+0027に変換したインデクスを作成する。なお,U+02BE,U+02BFと同様に,U+02BC,U+02BBについても,トルツメ処理したインデクスと,U+0027に変換したインデクスを作成する。

  6. 5.と同様,キリル文字の軟音符(ь)および硬音符(ъ)の翻字形についても,正しくU+02B9,U+02BAで検索した場合でも,アポストロフィ(U+0027)を使用した場合でも,検索に漏れがないように, U+02B9,U+02BAをトルツメ処理したインデクスと,U+02B9をU+0027に,U+02BAをU+0027,U+0027に変換したインデクスを作成する。なお,U+2032はU+02B9と,U+2033はU+02BAと同様の処理を行う。

  詳細は,以下のURLを参照してください。



前ページへ
8

次ページへ