電子書籍にちょっと期待している。仕事が暇なときに中国の法律を訳し、それを販売すればちょっとした稼ぎになるんじゃないか、ニーズが多そうな法律を選べばウハウハなのではないか、そんな虫のいいことを考えている。中国の著作権法の第5条には「本法不适用于:(一)法律、法规,国家机关的决议、决定、命令和其他具有立法、行政、司法性质的文件,及其官方正式译文」とあるので、いちゃもんをつけられることもなさそうだ。Amazon Digital Text Platform が日本語に対応したら挑戦してみたい。
Pinconvに組み込もうと思っている機能について。
1. フレーズ置換
特許文書には似たような言い回しが繰り返し出てくる。たとえば請求項で「如权利要求1所述的方法」と来たら「請求項1に記載の方法」と訳出するのだが、これが「如权利要求2所述的方法」であっても「如权利要求8所述的装置」であっても訳文はほぼ同じで項番や特許請求の対象部分が異なるだけだ。つまり「如权利要求A所述的B」を「請求項Aに記載のB」にする作業の繰り返しである。
これを正規表現を使った置換で処理するとすれば次のように書けば良い(あくまで一例)。
如权利要求([0-90-9]+)所述的([^\n,。;:]+) → 請求項\1に記載の\2
テキストエディタで「すべて置換」などを実行すれば、「如权利要求A所述的B」および一部が異なるだけの類似文字列が「請求項Aに記載のB」などにきちんと変換される。すばらしい。ちまちま手入力したり、コピペしたりする手間を考えるとずいぶん楽だ。
だが上掲の正規表現を毎回入力するのは面倒だ。こういう置換の組み合わせをファイルにまとめておいてコピペしたり、IMEに登録したりするといった対処方法も考えられるが、組み合わせを覚えるのも管理するのも面倒だ。嗚呼、もう何もかも面倒だ。うんざりだ。もう仕事なんかやめて旅に出よう。そういう気分になること請け合いである。
だからタブ区切りファイルにこういう置換の組み合わせをどっさり記録しておいて[]、それを読み込ませてまとめて置換する機能を作る(これをフレーズ置換と呼ぶことにした)。似たようなツールはこれまでにも作ったことがあるし、世の中にもたくさん存在するが、Pinconvの通常の変換やGhostなんかと組み合わせることができれば、かなり便利なものになると思う。ということで次の連続置換も実装したい。
2. 連続置換
フレーズ置換の機能が完成し、「如权利要求1所述的设备」を無事変換できるようになったと仮定する。「請求項1に記載の设备」と変換されるので、Pinconvの「中日.dat」を使ってさらに変換を行えば、下線部の簡体字が日本の漢字に変換され、「請求項1に記載の設備」となる。すばらしい。わずか2ステップで訳文のできあがりである。
だが、この2ステップを毎回繰り返すのも馬鹿みたいである。人生において地道な積み重ねは大切だが、単調で機械的な作業をいくらこなしたところでそれほど有意義な成果はあがらない。私の友人ドン・コルレオーネの言葉だ。

正規表現を記録したファイルを使って「フレーズ置換」を行ったら、続けて「中日.dat」を使って通常の変換を行うというフローをシステムに記憶させ、次からは1クリックで実行できると便利だ。この処理を連続置換と呼ぼう[]。実現すれば、作業の効率が1割くらい上がりそうだ。1割よぶんに仕事をすれば、ずいぶん収入がアップすることだろう。国民の模範たる私が納税することで国庫も潤うことだろう。
ということでこの2つの実装に取りかかる。
Pinconvのマイナーバージョンアップを行いました。いくつか不具合を修正しています。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。
修正点
- Wordファイルにテキストを書き戻す機能を修正
- 同Wordファイル関連の内部処理を修正
- Wordから抜き出したファイルを正しく扱えるようにVacuumの挙動を修正
北辞郎をAutoPagerizeに対応させた。huixingさんにご提案いただいて(多謝)、週末に背中の息子をあやしながら作業を進めたのだが、Firefox用のアドオンがどうもうまく動作しない。Google Chrome向けのエクステンションだとさくさく動いて気持ちいいのに、FirefoxだとSITEINFOをローカルのautopagerize.user.jsに追加しないとダメだ。
items.jsonを適当なサーバに上げて、SITEINFO_IMPORT_URLSにそのURLを追加すると動くので、wedata.netからデータを取得できてないのかな。いやでもChromeではちゃんと動いているしなあ。うーむ、もうちょっと試してみよう。
関連:北辞郎: AutoPagerize – wedata
追記:メインのデスクトップではうまくいかなかったけれどネットブックのFirefoxではちゃんと動いた。良かった。
ストックしていたタリスカーが終わってしまったのでモルトウィスキー・コンパニオンをぱらぱらめくり、マイコーおすすめのクラガンモア12年を注文した。
UDVクラシック・モルト・シリーズの1本でクラガンモアはスペイサイド代表である。ちなみに残る5本はダルウィニー(ハイランド)、オーバン(ウエスト・ハイランド)、グレンキンチー(ローランド)、ラガヴーリン(アイラ)、タリスカー(スカイ島)。
蜂蜜を思わせる甘さがあり、飲みやすく、後口もいい。ストレートでもどんどん飲めるが、それじゃあっという間になくなりそうなので水割りにした。グラスに1:1の水割りを作り、森永のカレ・ド・ショコラのビターを2枚取ってソファーに座り、ちびちびやりながらNHKの世界ふれあい街歩きを眺める(昨夜はイギリスのコッツウォルズだった)。幸せだ。
インターネットラジオのAccuRadioが実にいい。

Putumayo showcaseとWorld Musicというチャンネルがあり、ワールドミュージックのコンピレーションアルバムを数多く世に送り出しているPutumayoレーベルのアルバムからピックアップされた曲をランダムに聴くことができる。休憩の際にちょっと流すのにぴったりだ。
リンク:AccuRadio – The Next Generation of Radio
旅上
ふらんすへ行きたしと思へども
ふらんすはあまりに遠し
せめては新しき背廣をきて
きままなる旅にいでてみん。
汽車が山道をゆくとき
みづいろの窓によりかかりて
われひとりうれしきことをおもはむ
五月の朝のしののめ
うら若草のもえいづる心まかせに。
萩原朔太郎 純情小曲集
図書館でふと手に取った本に収録されていた詩。ぐっときた。
MS-Wordファイルからテキストを抽出し、編集後に書き戻す機能を追加したPinconvのバージョン4.06を公開します。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。
MS-Wordのファイルからテキストを抽出・編集・上書き

Wordのファイルをテキストエディタで編集したいと思ったことがあるのは、私だけではないでしょう。Wordは優れたアプリケーションですが、テキストをガリガリと入力する時は使い慣れたテキストエディタの方が効率がいいですし、テキストが相手なら置換や整形、校正、翻訳支援など各種ツールを利用して作業の省力化を図ることができます。
私はふだんほとんどの翻訳作業をPinconv上で行っています。変換データファイル「中日.dat」をベースに翻訳用のデータファイルを作成していて、固有名詞や専門用語などを数千語登録しています。
たとえば、翻訳対象である中国語の原文に「发改委」という単語が出てきたとしましょう。この言葉は組織名の略称ですので日本語にすると「発展改革委員会」となります。いつ、どのような文脈で出てきても必ず「発展改革委員会」と訳出することになりますので、毎回「hattennkaikakuiinnkai」とバカ正直にタイピングするのは避けたいところです。

そこで先ほどの翻訳用データファイルに「发改委」と「発展改革委員会」のペアを登録しておきます。そうすると次からはGhostを実行するだけで「发改委」が「発展改革委員会」に変換されますので入力の手間が省けます。手間が省けるだけでなく入力ミスの心配もなくなります。効率を上げミスも防ぐ。私のように無精でそそっかしい人間には最適の作業環境です。
しかしながら現実は思うに任せないもので、最終的に納品するのはたいていWordファイルです。表組みやテキストボックスの中を翻訳しなければいけないこともあります。プレーンテキストに落としてしまうとこうしたレイアウトなどの書式情報は保持されないため、自前で復元しなければいけません。当たり前ですがものすごく面倒です。
職人芸の域に達している複雑な表組みやテキストボックスを多用したフローチャートなどは、ツールで翻訳の効率化を実現してもレイアウトを復元する労力の方がそれを上回るのでメリットがありません[]。

そこで必要となるのが次のようなソリューション。Wordファイルからテキストを抜き出し、エディタを使って書式やレイアウトを改変することなくテキスト部分だけを編集し、作業が完了したら修正内容を元のファイルに反映させる。これができれば使い慣れた環境がそのまま使えますし、面倒な編集作業に時間を取られることもありません。
今回Pinconvに実装した「テキストの抽出」と「書き戻し」は、上述の機能を実現するものです。以下、実際の作業手順を紹介します。
read more…

講談社中日辞典第三版
講談社中日辞典第三版を入手した。発売とほぼ同時に本屋に走ったわけで、何もそんなに急がなくても良さそうなものだが、この辞典はネットに接続して「現代中国語新語辞典」を1冊丸ごとダウンロードできる上、更新機能で新語・流行語など最新データを入手できるという斬新な中日辞典なのである。ついに中日辞典もここまで来たかと私が興奮しても仕方ない。
辞書の内容は、本屋で立ち読みすれば確認できると思うので(2色刷りで実に見やすい)、以下パソコン上で利用する辞典のフロントエンドツールを中心に第一印象などを書いておく。
下図がインストールされる辞書引きツールである。新語辞典もほぼ同じUIで、どちらも内容を全文検索(!)することができる。アプリケーションのヘルプファイルを思わせるそっけない見た目だが、動作は軽快で検索も速い。

日本語と中国語、ピンインのフォント表示はきれいで見やすく、ご覧の通り挿絵や画像も表示される。検索は見出し語の前方一致、後方一致、完全一致のほか、上述したように辞典の内容を全文検索することができる。中国語とピンインだけでなく日本語でも検索することができ、検索した語句はハイライト表示される。日中辞典のように使えるし、全例文を対象に検索ができるのは実に頼もしい。
read more…

変換データファイル「ピンイン.dat」に繁体字や日本の漢字の発音データを追加したPinconvのバージョン4.05を公開します。
Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

バージョン4.05では「ピンイン.dat」に多くのデータが追加されましたが、以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データは自動的に更新されません。「変換」メニューの
データファイルの復元を実行し、既存の「ピンイン.dat」を上書きして下さい。なお、これまでご自身が登録したデータは新しいファイルに引き継がれます。

変更点
- ピンイン変換データに繁体字や日本の漢字のデータを追加追加したほか、複数候補がある漢字のピンインの区切り文字を/から|に変更(データはUnihan.txtを参考にした)
- 起動時のハイライトの不具合修正
- 「データファイルの復元」を一部修正