「生物辨識技術專利資訊分析」を「生物辨識技術專利資訊分析」に変換するツールを作りました。
変換前と変換後、同じやんけ、そう思われた方、ツッコミありがとうございます。
「生物辨識(U+F9FC)技術專利(U+F9DD)資訊分析」を「生物辨識(U+8B58)技術專利(U+5229)資訊分析」にしているということなのです。
これは、主に台湾のドキュメントでときどき起きる互換漢字由来の問題で、かたちは同じだが、コードポイントが異なる文字が混在し、そのせいで各種テキスト処理に支障を来したり、文字化けを起こしたりします。
台湾などで使われているBig5という文字コードで作成されたドキュメントをPDFファイルに変換する際などに、この問題が生じているのではないかと推測していますが、「專利」のような単語を辞書で検索しようとしてもヒットしなかったり、日本語の漢字に変換しようとしてツールにかけてもうまく処理できなかったり、あれやこれやと面倒な事態が生じます。
👉リンク:PDFコピペ用テキスト正規化ツール
この問題は、上記のツールを使えば解消できます。試しに「生物辨識技術專利資訊分析」を貼り付けて実行してみてください。変換結果の下部に修正された文字の一覧が表示されるので、どの文字が変換されたか確認することが可能です。とってもニッチなツールですが、どこかの誰かのお役に立てたら幸いです。