テンプレート置換、連続置換、Ghost用ダイアログなどの機能を追加し、置換関連機能を大幅に拡充したPinconvのバージョン4.08を公開します。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。
以下、新たに追加した3機能の概要を紹介します。それぞれ詳しい使い方については、ヘルプのテンプレート置換、連続置換、Ghost用ダイアログをご参照下さい。
read more…

講談社中日辞典第三版
講談社中日辞典第三版を入手した。発売とほぼ同時に本屋に走ったわけで、何もそんなに急がなくても良さそうなものだが、この辞典はネットに接続して「現代中国語新語辞典」を1冊丸ごとダウンロードできる上、更新機能で新語・流行語など最新データを入手できるという斬新な中日辞典なのである。ついに中日辞典もここまで来たかと私が興奮しても仕方ない。
辞書の内容は、本屋で立ち読みすれば確認できると思うので(2色刷りで実に見やすい)、以下パソコン上で利用する辞典のフロントエンドツールを中心に第一印象などを書いておく。
下図がインストールされる辞書引きツールである。新語辞典もほぼ同じUIで、どちらも内容を全文検索(!)することができる。アプリケーションのヘルプファイルを思わせるそっけない見た目だが、動作は軽快で検索も速い。

日本語と中国語、ピンインのフォント表示はきれいで見やすく、ご覧の通り挿絵や画像も表示される。検索は見出し語の前方一致、後方一致、完全一致のほか、上述したように辞典の内容を全文検索することができる。中国語とピンインだけでなく日本語でも検索することができ、検索した語句はハイライト表示される。日中辞典のように使えるし、全例文を対象に検索ができるのは実に頼もしい。
read more…

変換データファイル「ピンイン.dat」に繁体字や日本の漢字の発音データを追加したPinconvのバージョン4.05を公開します。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

バージョン4.05では「ピンイン.dat」に多くのデータが追加されましたが、以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データは自動的に更新されません。「変換」メニューの
データファイルの復元を実行し、既存の「ピンイン.dat」を上書きして下さい。なお、これまでご自身が登録したデータは新しいファイルに引き継がれます。

変更点
- ピンイン変換データに繁体字や日本の漢字のデータを追加追加したほか、複数候補がある漢字のピンインの区切り文字を/から|に変更(データはUnihan.txtを参考にした)
- 起動時のハイライトの不具合修正
- 「データファイルの復元」を一部修正

「pin1yin1」のように声調を数字で表現した簡易ピンインと注音符号を相互変換するためのデータファイルを公開します。このデータを利用してPinconvで変換を実行すれば、「pin1yin1」を「ㄆㄧㄣㄧㄣ」にすることができます。
ダウンロード:変換データファイル(zhuyin.zip)[]
ダウンロードしたZIPファイル(zhuyin.zip)には、「pin2zhu.dat」と「zhu2pin.dat」の2つのデータファイルが含まれています。「pin2zhu.dat」がピンインから注音への変換用データ、「zhu2pin.dat」が注音からピンインへの変換用データです。Pinconvを起動し、「変換」メニューから「データファイルを追加」を実行して登録を行うと使えるようになります[]。
追記:lv(lü)、lve(lüe)、nv(nü)が正しく変換されない問題を修正しました。ぽんた様、ご指摘ありがとうございました(2010/4/10)。
追記:er化の「r」が正しく変換されない問題を修正しました。ぽんた様、ご指摘ありがとうございました(2010/4/16)。

注音に関する作者の知識が乏しいため、変換結果が妥当でない可能性があります。間違いを発見された場合は教えていただければ幸いです。

Pinconv用にピンインと注音符号の変換データを作成しているのだが、注音についてほとんど知識がないので「ㄧ」の表示にとまどっている。なんでフォントによって縦になったり横になったりするんだ。
関連:注音符號 – 维基百科
関連:注音符号问题贴_注音符号吧_贴吧
関連:注音符号_互动百科
関連:Proposal to add Mahjong symbols to ISO/IEC 10646
Pinconvのバージョンアップを行い、日本の新字体を繁体字に変換するためのデータファイルを追加しました。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データファイル(日繁.dat)は、自動的にインストールされません。「変換」メニューの
データファイルの復元を実行して追加して下さい。
新字体から繁体字への変換
日本語の文章を中国語に翻訳する際、意外に面倒なのが地名や人名、組織名などの固有名詞の翻訳です。同じように漢字を使っているとはいえ、簡体字、繁体字、新字体など漢字にも種類がありますので適当にごまかそうとするとまず間違いなくクレームがつきます。たとえば原文に「広島地方検察庁呉支部(広島県呉市)」とあった場合、台湾で使われている繁体字にすると「廣島地方檢察廳吳支部(廣島縣吳市)」となります。

漢字15文字の内、7文字を繁体字に直さなければならず、日本の新字体に対応する繁体字を1字ずつ調べていく地道な作業が必要となります。10文字程度ならなんとかやっつけることはできても、組織名と住所がずらっと並んだエクセルファイルなどが対象だとしたらどうでしょう。うんざりしますね。
さらに1例をあげれば、「戸内」という日本人名を繁体字にすると「戶內」となります。新字体と繁体字に違いはないように見えるかも知れませんが「戸」と「戶」、「内」と「內」にはそれぞれ異なる文字コードが振られています。日本語をそのままコピー&ペーストして一丁上がりとはいきません。「呑(U+5451)」と「吞(U+541E)」などこうした字はほかにもいくつかあり、目を皿にして1字1字チェックしていく必要があります。
今回公開したPinconv用の「日繁.dat」は、こうした変換作業の負担を大きく軽減します。日本語のテキストが表示された状態で、このデータファイルを用いて変換を行うと、日本語の漢字が一瞬で繁体字に変換されます。あとは変換結果が妥当かどうか確認するだけ。1字ずつ調べることを考えれば随分楽です。
国字の扱いや制限事項などについて
- 「込」や「辻」などのいわゆる国字(和製漢字)は、繁体字に変換することができないため、変換後は「★」が出力されます。国字をそのまま出力したい場合などは、用語集の編集を行って下さい。[]
- 日繁.datは、日本の新字体を台湾で使われている繁体字に変換することを目指しているため、「闘」は「鬥」に変換され、「竃」は「灶」に変換されます。いわゆる旧字体への変換とは処理結果が異なります。
- 「狢」から「貉」への変換など、繁体字に変換する際に異体字や別字に置き換える漢字のうち、作者が注意が必要と判断した漢字は、出力時にアスタリスクが付加されます。作者のデータ管理用に設けたマークですので不要であれば編集して下さい。
- 変換データの登録を暫時保留している漢字は、「〓」が出力されます。
- 現行バージョンのPinconvにはU+9FA6以降の漢字データを扱えないという制限があります。そのため、この範囲に含まれる漢字を変換しようとしても「〓」が表示されます。ご了承下さい。
予、台、弁、干などの処理について
新字体では、繁体字の「瓣、辮、辯」などが「弁」で代替されています。「花瓣」は「花弁」に、「辮髮」は「弁髪」、「辯護」は「弁護」という風に本来は異なる漢字で表現すべきところを「弁」の1字で済ませているため、これを繁体字に変換するには単語ごとに処理を切り替える必要があります。「日繁.dat」には、こうした単語がいくつか登録されていますが(詳細は以下の一覧を参照)、正しく変換されなかったデータを見つけた場合は、お手数ですがご自分で追加してください。[]
read more…
Pinconvのバージョンアップを行い、繁体字を新字体に変換するためのデータファイルを追加しました。このデータを利用することで台湾などで利用されている繁体字をふだん使っている新字体に変換することができます。また、コマンドバーから変換データに対応するボタンを削除する際の不具合も修正しました。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。
修正点

- 繁体字を新字体に変換するデータファイルを追加
- 変換データに対応するボタンをコマンドバーから削除する際の不具合(削除すると変換やghostが正しく行えなくなる)の修正
新たに追加された繁体字を新字体に変換するためのデータファイルは、ツールバーの「convert」をクリックし、表示される変換コマンドバーで「繁日」を選択すると利用することができます。なお、繁体字に対応する日本語の漢字が存在しない場合、「〓」が出力されます。たとえば「能夠」は「能〓」、「謊言」は「〓言」に変換されます。変換データの内容は完全なものではありません。今後も見直しを行っていく予定のものですので、変換結果を利用する際は必ずご自身でチェックを行って下さい。
変換データについての補足説明
Pinconvの「繁日」変換データは、国語審議会の印刷標準字体に準じていません。変換データ作成時のメモ書きを以下に示しますので、必要に応じてデータを編集して下さい。
read more…

WindowsにはLCMapStringという関数が用意されている。文字列の全角/半角やひらがな/カタカナの変換機能を提供する関数で、簡体字/繁体字の変換もサポートしているのだが、この関数の変換テーブルには間違いがあるようだ。
テキストエディターのEmEditorで提供されている簡繁変換のプラグインもこの関数を利用しているのだが、繁体字の潟を変換すると泻に変換されてしまう。泻の繁体字は瀉で潟とは全く別の字である。「干潟」が「干泻(ひからびた下痢)」になったり、「新潟」が「新泻(新しい下痢)」になったりして困る。
大陸のWEBサイトなどでたまに「新泻县」を目にするのは、この関数が原因のひとつと考えられる。
追記:Googleで台湾のサイトを対象に「潟」の検索をすると「潟」と「泻」が同一視される。問題の根は深い。
こうした間違いが起こる原因として、写の旧字体である「寫」と俗字の「冩」の存在が考えられる。これらの新字体はいずれも「写」であるため、「潟」の簡体字として「
泻」が類推されたのだろう。
「
泻」は日本でも「潟」の略字として使われてきたのでややこしいが
[]、中国における簡体字の成立には関係ないのでここでは触れない。
関連:
新潟県:中国語における「新潟」の表記について
繁体字の埓と埒の字体について、昨日のエントリでは確認しなかったが、他の繁体字フォントも試してみた。以下はGRF FontとMingLiuの比較である。GRFの方は期待通りだ。


「埒が明かない」などに使う「埒」という漢字は、MS明朝などの日本語フォントでは上図左のように表示され、繁体字のMingLiuでは真ん中のように、簡体字のSimSunでは右のように表示される。少しずつ形が違うが、いずれもUnicodeでは57D2という番号が与えられている同じ漢字である。「同じ漢字でも国によって形が違うんですなあ、面白いですなあ」とのんきに流しておきたいところだが、この字の場合は異体字に「埓」(U+57D3)があるのでややこしい。
現在、Pinconvで繁体字を日本の漢字に変換するデータファイルを作成しているのだが、繁体字の「埒」に対応するデータをどうするかで脳内会議が紛糾した。字形が同じなんだから繁体字から日本の漢字への変換なら57D2→57D3でもいいんじゃない?そんなこと言ったら「吞(U+541E)」と「呑(U+5451)」なんかぱっと見違いがないから変換しないでいいという話になるだろう。いやそうはならんだろう。そもそもこれはMingLiuの問題じゃないのか。ほかのフォントだとどうなんだ。文字コードに字形の話を持ち込むなよ。いや今してるのは変換の話だ。黙れ小童。なんだとこのヤロウ、わーわー。……侃々諤々、丁々発止である。
MS-IMEでは「不埒」と「放埓」で違う文字が出力されるそうだが他人事ではない。MingLiuの埒の字形が10pt以下ではSimSunと同じになったりして混乱に拍車をかける。困った時の駆け込み寺である教育部異體字字典でも軽く門前払いされた。うーむ。
結局、異体字に変換するわけにもいかんだろうということでU+57D2のままにしている。こんなのがたくさん出てこないことを祈る。
参考:旧い漢字の使い方~旧字・異体字・俗字~ 【埒】と【埓】
関連:字典中 埒 字的解释