Pinconvのバージョンアップを行い、繁体字を新字体に変換するためのデータファイルを追加しました。このデータを利用することで台湾などで利用されている繁体字をふだん使っている新字体に変換することができます。また、コマンドバーから変換データに対応するボタンを削除する際の不具合も修正しました。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。
修正点

- 繁体字を新字体に変換するデータファイルを追加
- 変換データに対応するボタンをコマンドバーから削除する際の不具合(削除すると変換やghostが正しく行えなくなる)の修正
新たに追加された繁体字を新字体に変換するためのデータファイルは、ツールバーの「convert」をクリックし、表示される変換コマンドバーで「繁日」を選択すると利用することができます。なお、繁体字に対応する日本語の漢字が存在しない場合、「〓」が出力されます。たとえば「能夠」は「能〓」、「謊言」は「〓言」に変換されます。変換データの内容は完全なものではありません。今後も見直しを行っていく予定のものですので、変換結果を利用する際は必ずご自身でチェックを行って下さい。

WindowsにはLCMapStringという関数が用意されている。文字列の全角/半角やひらがな/カタカナの変換機能を提供する関数で、簡体字/繁体字の変換もサポートしているのだが、この関数の変換テーブルには間違いがあるようだ。
テキストエディターのEmEditorで提供されている簡繁変換のプラグインもこの関数を利用しているのだが、繁体字の潟を変換すると泻に変換されてしまう。泻の繁体字は瀉で潟とは全く別の字である。「干潟」が「干泻(ひからびた下痢)」になったり、「新潟」が「新泻(新しい下痢)」になったりして困る。
大陸のWEBサイトなどでたまに「新泻县」を目にするのは、この関数が原因のひとつと考えられる。
追記:Googleで台湾のサイトを対象に「潟」の検索をすると「潟」と「泻」が同一視される。問題の根は深い。
繁体字の埓と埒の字体について、昨日のエントリでは確認しなかったが、他の繁体字フォントも試してみた。以下はGRF FontとMingLiuの比較である。GRFの方は期待通りだ。


「埒が明かない」などに使う「埒」という漢字は、MS明朝などの日本語フォントでは上図左のように表示され、繁体字のMingLiuでは真ん中のように、簡体字のSimSunでは右のように表示される。少しずつ形が違うが、いずれもUnicodeでは57D2という番号が与えられている同じ漢字である。「同じ漢字でも国によって形が違うんですなあ、面白いですなあ」とのんきに流しておきたいところだが、この字の場合は異体字に「埓」(U+57D3)があるのでややこしい。
現在、Pinconvで繁体字を日本の漢字に変換するデータファイルを作成しているのだが、繁体字の「埒」に対応するデータをどうするかで脳内会議が紛糾した。字形が同じなんだから繁体字から日本の漢字への変換なら57D2→57D3でもいいんじゃない?そんなこと言ったら「吞(U+541E)」と「呑(U+5451)」なんかぱっと見違いがないから変換しないでいいという話になるだろう。いやそうはならんだろう。そもそもこれはMingLiuの問題じゃないのか。ほかのフォントだとどうなんだ。文字コードに字形の話を持ち込むなよ。いや今してるのは変換の話だ。黙れ小童。なんだとこのヤロウ、わーわー。……侃々諤々、丁々発止である。
MS-IMEでは「不埒」と「放埓」で違う文字が出力されるそうだが他人事ではない。MingLiuの埒の字形が10pt以下ではSimSunと同じになったりして混乱に拍車をかける。困った時の駆け込み寺である教育部異體字字典でも軽く門前払いされた。うーむ。
結局、異体字に変換するわけにもいかんだろうということでU+57D2のままにしている。こんなのがたくさん出てこないことを祈る。
参考:旧い漢字の使い方~旧字・異体字・俗字~ 【埒】と【埓】
関連:字典中 埒 字的解释
某社で中国関係の業務を担当しているA氏に社長が声をかけた。
「今度、中国の工場に行く件でちょっと相談なんだが、せっかくだから現地の従業員に中国語であいさつしようと思ってね。忙しいところ悪いんだが、この日本語を中国語に翻訳して中国語の読みをカタカナで下に書いてくれないか」
A氏は、ピンインと声調を覚えて発音の練習しないとカタカナ読みでは通じないですよ、と出かかった言葉を飲み込み、「なるほど、現地の従業員も喜びますね。それでは一両日中に用意してお届けします」と返事をした。波風を立てない大人の対応である。
社長はA氏の肩をポンと叩き、じゃあよろしくと背を向ける。A氏は軽く会釈をして渡された原稿を広げ、面倒なことを頼まれたなと溜息をついた。
* * *
ということで、今回はこのA氏の手助けをしようと思う。翻訳については素晴らしい中国語訳が完成しているという前提で、その中国語をカタカナに変換する。使う道具はPinconvで、段取りとしては中国語→簡易ピンイン→カタカナの順に変換を行う。拼音→pin1yin1→ピンインというかたちだ。

中国語を簡易ピンインに変換するデータファイルは、Pinconvですでに実現されているため、簡易ピンインをカタカナにするための変換データを新たに作成する。
read more…
Pinconvのマイナーバージョンアップを行いました。ステータスバーをダブルクリックまたは右クリックして変換データファイルの切り替えが出来るようになったほか、いくつか不具合を修正しています。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。
修正点

- 変換データの切り替えをステータスバーから行えるように変更
- 変換データの新規作成が正常に実行できない不具合の修正
- 変換データのインポートが正常に実行できない不具合の修正
- 置換後のハイライトが正常に動作しない不具合を修正
文字列にルビを振るためのプラグインを新たに追加したPinconv 4.01を公開します。
ダウンロードとPinconvの詳しい説明は、こちらのエントリを参照下さい。
Ruby プラグイン

Rubyプラグインは、上の画像のように文字列にルビを振るためのプラグインです。たとえばカラオケ用のアンチョコを作ったり、音読練習用のプリントを作ったりする場合に利用すると便利だと思います。出力形式にHTMLを採用していますので、ブログなどに張り付けることもできます。
利用例: 簡体字中国語にピンインのルビを振る
以下、Rubyプラグインの利用例として往年の名曲にピンインのルビを振ってみます。いくつかステップを踏む必要がありますが、それほど手間がかかるわけではありませんのでお付き合いください。
read more…
Pinconvは、漢字をピンインに変換したり、簡体字を日本の漢字に変換したり、簡体字を繁体字に変換したりするツールです。たとえば中華圏の人物や会社、建物、地名などを日本に紹介する際は、簡体字や繁体字を日本の漢字に置き換える必要がありますが、1文字ずつ対応する漢字を確認していくのは大変な作業です。Pinconvを使えば、元の中国語のテキストを張り付けて変換ボタンを押すだけで、この大変な作業をあっという間に片付けることができます。
特徴
1. 複数パターンの高速一括変換
複数の変換パターンをまとめて処理するために内部処理を最適化していますので、簡体字からピンインへの変換や繁体字から簡体字への変換など、変換パターンが数千~数万組単位で登録されていても高速に処理を行うことができます。
また、文字単位ではなく単語単位で変換を行いますので[]、たとえば簡体字から繁体字への変換では「头发」は「頭髮」に、「发布」を「發布」に変換することができますし、システムに登録されていないデータがあってもユーザが簡単に編集することができます。
2. 翻訳作業をサポートする多彩な機能
Pinconvには中国語翻訳者である作者が日々の作業を効率化するために実装した機能が多数盛り込まれています。Pinconvの変換機能を利用し、原文と変換後の文字列を対訳表示するGhost、翻訳作業後に対訳表示の原文部分を削除し、訳文のみに整形した上で対訳データベースに原文と訳文を保存するVacuum、対訳データベースから類似文字列を検索し、Pinconvを翻訳メモリツール化するあいまい検索機能などは、翻訳効率の大幅な向上を約束します。
3. 多言語対応エディタ
Pinconvは、Unicodeに対応しています。そのため、中国語と日本語など複数の言語が混在していても問題なく表示することができます。
UndoやRedo、クリッカブルURL、タブによる複数ファイルの管理、強調表示、正規表現に対応した検索と置換といったエディタとしての基本的な機能を備え、行間や折り返し、文字色や背景色など細かい部分まで設定を行うことが可能です。
また、EUC-JPやシフトJIS、UTF-8やGB2312、BIG5など複数の文字コードでのファイルの読み書きにも対応しています。
4. 豊富な検索機能


オンライン中日辞書 北辞郎との連携機能を備えていますので、分からない単語があっても右クリックから簡単に意味を調べることができます。読みが分からない漢字を調べるための「部首画数検索」や選択した文字列をWEBサイトで検索する「Web検索」機能も調べ物を強力にサポートします。
5. プラグインで機能拡充
Pinconv4にはプラグイン機能が用意されており、インストール時には編集作業をサポートする5つのプラグインが同梱されています。
- 日本語校閲
Yahoo!デベロッパーネットワークの校正支援を利用して編集中のファイルの校正を行うことができます。
- あいまい検索
編集中のファイルや対訳データベースを対象にあいまい検索を行うことができます。Pinconvに翻訳メモリ的な機能を追加するものです。
- Grep
フォルダ内の全ファイルを対象に検索を行います。サブフォルダの検索や正規表現を利用した検索が可能です。
- 見出し一覧
指定した文字列から始まる行を一覧表示することができます。正規表現が利用できるほか、ブックマークした行だけを一覧表示することもできます。
- 文字数カウント
コメント行とそれ以外の行を分けて文字数をカウントしたり、カーソル行までの文字数、カーソル行以降の文字数などをカウントすることができます。
read more…

オンライン中日辞書 北辞郎の登録データ数がついに13万語に到達した。
年明けから実にめでたい。
中国語のかっこと句点の組み合わせについて調査。文末にかっこを置く場合、句点をかっこの後に付けるのか、前に付けるのか、またその場合かっこの中に句点を置いて良いのか悪いのか、という点をはっきりさせたい。ふだん相手にしているドキュメントではみなさん割とテキトー(失礼)であるように思われるが、こういうのはどこかにルールがあるはずである。で、調べてみたらこれがなかなかに複雑だった。
まず「句内括号」と「句外括号」という2種類の括弧がある。どちらも同じ ( と ) だが、「句内括号」は「注释句子里某种词语的,括注紧贴在被注释词语之后 」ということで、注釈をつけたい言葉の直後にかっこを置く。一方、「句外括号」は「注释整个句子的,括注放在句末标点之后」、つまりその文全体について注釈をつける場合に用い、句点の後に置かれる。
これは国家技术监督局が1995年に発布した标点符号用法の定義である。「句外括号」の定義が少し分かりにくいが、単語の補足や注釈にかっこを使う場合(句内括号、日本のかっこと同様の使い方)、かっこの前に句点は置かないという理解で問題なさそうだ。
文全体について説明を加える「句外括号」が句点の後ろに置かれることは分かったが、実際に「句外括号」がどのように使われているのか今ひとつ分かりにくかったので、ネット上の各種解説文書から例文を拾ってきた。
read more…