|
包摂処理 |
|
※一覧のファイルはフォントにより文字化けすることがあります。 |
|
|
|
① |
1対N包摂 |
|
|
|
|
1文字から複数の文字(N文字)への包摂処理を行う |
|
|
|
(例) |
U+FB01 ? → U+0066, U+0069 f i
U+FB17 ? → U+0574, U+056D ? ? |
|
|
|
|
|
|
|
|
|
|
|
② |
文字単位包摂 |
|
|
|
a. |
|
|
|
|
英字,数字について,全角→半角の包摂処理を行う。 |
|
|
|
|
|
|
b. |
|
|
|
|
(例) |
U+FF1B ;→U+003B ; |
|
|
|
|
|
|
|
|
|
|
|
c. |
|
|
|
|
(例) |
U+7DA0 綠 → U+7DD1 緑 |
|
|
|
|
|
|
|
|
|
|
|
d. |
|
|
|
|
a~cに含まれない1文字対1文字の包摂処理を行う。
アラビア文字の数字は,その他の1対1包摂処理に含む |
|
|
|
(例) |
U+1F71? ?? → U+03AC ?
U+0663 ? → U+0033 3 (アラビア文字の数字) |
|
|
|
|
|
|
|
|
|
|
|
e. |
|
|
|
|
未使用文字をU+3013 〓 に包摂する。すなわち,未使用文字包摂定義に定義された文字はNACSIS-CATでは使用不可である。 |
|
|
|
|
|
|
|
|
|
|
|
③ |
合成文字包摂 |
|
|
|
|
文字+音標記号が独立した文字コードで入力されている場合に,合成文字に包摂する。 |
|
|
|
(例) |
U+0041,U+0300 A? ? →? U+00C0 A |
|
|
|
|
|
|
|
|
|
|
|
④ |
カタカナ包摂 |
|
|
|
|
1バイトのカタカナを2バイトのカタカナに包摂する。 |
|
|
|
|
|
フィールドごとの正規化処理等 |
|
|
|
⑤ |
合成文字ローマ字化 |
|
|
|
|
音標記号がついた文字をインデクス作成の際に,音標文字のつかない文字に変換してインデクス化する,等,インデクス化に際して,同一の文字としてインデクス化する文字を定義する。アラビア文字以外の各文字種固有の数字の定義はここに含む。 |
|
|
|
(例) |
U+00C0 A →? U+0041 A |
|
|
|
|
|
|
|
|
|
|
|
⑥ |
漢字統合 |
|
|
|
|
|
|
|
|
(例) |
齊 齋 斉 → インデクス作成の際は,「斎」 に統合する。 |
|
|
|
|
|
|
⑦ |
ひらがなカタカナ化 |
|
|
|
|
インデクス作成の際に,ひらがなはカタカナに変換する。 |
|
|
|
|
|
|
⑧ |
大文字化 |
|
|
|
|
ラテン文字,ギリシャ文字,キリル文字,アルメニア文字等において,インデクス作成の際に,小文字は大文字に変換する。これにより,アルファベットの大文字小文字を意識せずに検索することができる。 |
|
|
|
|
|
|
|
|
|
|
その他 |
|
|
|
⑨ |
翻字形の正規化 |
|
|
|
|
NACSIS-CATでは,翻字形がアポストロフィ(U+0027)に似ている場合に検索に漏れがないように,正しい文字を従前どおりトルツメ処理したインデクスと正しい文字をアポストロフィに変換したインデクスを作成する。なお,U+02BC,U+02BBについても,同様の処理を行う。
|
|
|
|
(例) |
アラビア文字のアリフの翻字形(U+02BE)およびアインの翻字形(U+02BF)
キリル文字の軟音符(ь)の翻字形(U+02B9)および硬音符(ъ)の翻字形(U+02BA) |