NormToStandardJapanChar

Unicode文章でよく発生する「文字のゆれ(形が近い異字体等)」を「標準的な文字」へと正規化する機能を提供します。
NFCやNFKCで一括変換といった単純なものではなく、以下のように調整しています。
1文字ずつ走査します。
- ここでいう「1文字」とは、サロゲートペアなど「複数の文字で1つの文字」を形成している場合、その「複数の文字全体」を1文字として取り扱います。
文字がsjisの文字に収まっている場合、それをそのまま採用します。
文字がsjisの文字に収まっていない場合、「NFC」でUnicode正規化をします。
この変換の結果、「何らかの文字変換が行われた」場合、それを採用します。
上では文字の変化が起きなかった場合、該当文字を「NFKC」でUnicode正規化します。
この変換の結果、「元の文字とバイト数が同じか、それ以下の場合のみ」それを採用します。
以上の形で「文字の揺れ」を解消しています。
使い方
コマンドパレットで「Normalize to standard Japanese characters」を実行する。
テキストを何も選択していない場合は全文を対象とする。
テキストを選択している時は、選択している範囲を対処とする。
マーケットプレイス
NormToStandardJapanChar で公開されています。
Change Log
0.4.6
0.4.5
0.4.3
0.4.2
0.4.1
| |