Unicode上で「ぱっと見は同一文字」に見えても、「実際には違う文字」となってしまっていることがあります。
「文字の揺れ」を妥当な形で修正し、正規化する「秀丸変換モジュール」です。
あくまでも「文字の揺れ」を直すものであり、「ですます調」などの「文章の揺れ」を直すものではありません。
秀丸エディタ ver8.00以上
Windows 11なら最初から入っています。
Windows 10でも余程敬遠していない限りは入っています。
Visual Studio 2022 C++ ランタイム
x86版とx64版両方インストールしてください。
秀丸・変換モジュールの登録 などを参考にして使えるようにしてください。
対象の文章を秀丸でがばっと選択状態にし、秀丸の「編集」「変換」で、「標準的な文字への正規化」
selectall; filter "NormToStandardChar.hmf", "NormToStandardChar"; // 64bit版の場合は、 // filter "NormToStandardChar.hmf64", "NormToStandardChar";
selectall; filter currentmacrofilename + "\\NormToStandardChar.hmf", "NormToStandardChar"; // 64bit版の場合は、 // filter currentmacrofilename + "\\NormToStandardChar.hmf64", "NormToStandardChar";
NFCやNFKCで一括変換といった単純なものではなく、以下のように調整しています。
以上の形で「文字の揺れ」を解消しています。
NormToStandardJapanChar にて、同じ作者である私が提供しています。
(但し、秀丸で提供しているものは、C#かつ並列スレッドで処理しているため、秀丸で提供してるものの方が10~200倍ほど高速です)
NormToStandardChar は MIT ライセンスとなります。