Posts from the ‘Pinconv’ Category

2010/06/29

Pinconv 4.11

by ctrans

Pinconvのバージョンアップを行いました。終了時のコマンドバーとサイドバーの状態を起動時に復元する機能を追加したほか、北辞郎検索に関係する不具合などを修正しています。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

修正点

  • 北辞郎の検索時の検索オプションまわりの不具合を修正
  • 終了時のコマンドバーとサイドバーの状態を起動時に復元するように変更(プラグインによって表示されたものは除く)
  • 検索用のコマンドバーや置換用のサイドバーなどでEscapeキーを押すとエディタ部分にフォーカスが移るように変更
  • 色設定ダイアログのカラーテーマの選択方法を変更
  • 変換データファイルが切り替えられた際のステータスバー更新の不具合を修正
  • 検索時のハイライトの挙動を修正
  • 「ファイルを開く」からWordファイルのテキストを抽出しても「最近開いたファイル」に登録されない不具合を修正
  • Wordのファイルからテキストを抽出する際にインライン要素を無視するオプションを追加(設定ダイアログの「ファイル」タブ)
2010/06/01

Pinconv 4.10

by ctrans

Pinconvのマイナーバージョンアップを行いました。テンプレート置換のファイル切り替えに関連する不具合などを修正しています。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

修正点

  • 登録ユーザ専用機能「データファイルの保存先を変更」の挙動を変更
  • テンプレート置換のファイル切り替えが正しく動作しない不具合を修正
2010/05/24

Pinconv 4.09

by ctrans

Pinconvのマイナーバージョンアップを行いました。システムディレクトリの設定に関連する不具合を修正しています。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

修正点

  • バージョンアップ時のシステムディレクトリの設定に関係する不具合を修正
2010/05/22

Pinconv 4.08 – テンプレート置換と連続置換

by ctrans

テンプレート置換、連続置換、Ghost用ダイアログなどの機能を追加し、置換関連機能を大幅に拡充したPinconvのバージョン4.08を公開します。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

以下、新たに追加した3機能の概要を紹介します。それぞれ詳しい使い方については、ヘルプのテンプレート置換連続置換Ghost用ダイアログをご参照下さい。

read more…

2010/04/27

フレーズ置換と連続置換

by ctrans

Pinconvに組み込もうと思っている機能について。

1. フレーズ置換

特許文書には似たような言い回しが繰り返し出てくる。たとえば請求項で「如权利要求1所述的方法」と来たら「請求項1に記載の方法」と訳出するのだが、これが「如权利要求2所述的方法」であっても「如权利要求8所述的装置」であっても訳文はほぼ同じで項番や特許請求の対象部分が異なるだけだ。つまり「如权利要求A所述的B」を「請求項Aに記載のB」にする作業の繰り返しである。

これを正規表現を使った置換で処理するとすれば次のように書けば良い(あくまで一例)。

如权利要求([0-90-9]+)所述的([^\n,。;:]+) → 請求項\1に記載の\2

テキストエディタで「すべて置換」などを実行すれば、「如权利要求A所述的B」および一部が異なるだけの類似文字列が「請求項Aに記載のB」などにきちんと変換される。すばらしい。ちまちま手入力したり、コピペしたりする手間を考えるとずいぶん楽だ。

だが上掲の正規表現を毎回入力するのは面倒だ。こういう置換の組み合わせをファイルにまとめておいてコピペしたり、IMEに登録したりするといった対処方法も考えられるが、組み合わせを覚えるのも管理するのも面倒だ。嗚呼、もう何もかも面倒だ。うんざりだ。もう仕事なんかやめて旅に出よう。そういう気分になること請け合いである。

だからタブ区切りファイルにこういう置換の組み合わせをどっさり記録しておいて[1]、それを読み込ませてまとめて置換する機能を作る(これをフレーズ置換と呼ぶことにした)。似たようなツールはこれまでにも作ったことがあるし、世の中にもたくさん存在するが、Pinconvの通常の変換やGhostなんかと組み合わせることができれば、かなり便利なものになると思う。ということで次の連続置換も実装したい。

2. 連続置換

フレーズ置換の機能が完成し、「如权利要求1所述的设备」を無事変換できるようになったと仮定する。「請求項1に記載の设备」と変換されるので、Pinconvの「中日.dat」を使ってさらに変換を行えば、下線部の簡体字が日本の漢字に変換され、「請求項1に記載の設備」となる。すばらしい。わずか2ステップで訳文のできあがりである。

だが、この2ステップを毎回繰り返すのも馬鹿みたいである。人生において地道な積み重ねは大切だが、単調で機械的な作業をいくらこなしたところでそれほど有意義な成果はあがらない。私の友人ドン・コルレオーネの言葉だ。

正規表現を記録したファイルを使って「フレーズ置換」を行ったら、続けて「中日.dat」を使って通常の変換を行うというフローをシステムに記憶させ、次からは1クリックで実行できると便利だ。この処理を連続置換と呼ぼう[2]。実現すれば、作業の効率が1割くらい上がりそうだ。1割よぶんに仕事をすれば、ずいぶん収入がアップすることだろう。国民の模範たる私が納税することで国庫も潤うことだろう。

ということでこの2つの実装に取りかかる。

  1. 置換用サイドバーからこうした組み合わせを保存できるようにすれば便利かもしれない。 []
  2. これができればリクエストいただいている簡体字から声調付きピンインへの直接変換も実現できる。 []

Pinconv 4.07

by ctrans

Pinconvのマイナーバージョンアップを行いました。いくつか不具合を修正しています。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

修正点

  • Wordファイルにテキストを書き戻す機能を修正
  • 同Wordファイル関連の内部処理を修正
  • Wordから抜き出したファイルを正しく扱えるようにVacuumの挙動を修正
2010/04/11

Pinconv 4.06 – Wordファイルの操作

by ctrans

MS-Wordファイルからテキストを抽出し、編集後に書き戻す機能を追加したPinconvのバージョン4.06を公開します。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

MS-Wordのファイルからテキストを抽出・編集・上書き

word2txt

Wordのファイルをテキストエディタで編集したいと思ったことがあるのは、私だけではないでしょう。Wordは優れたアプリケーションですが、テキストをガリガリと入力する時は使い慣れたテキストエディタの方が効率がいいですし、テキストが相手なら置換や整形、校正、翻訳支援など各種ツールを利用して作業の省力化を図ることができます。

私はふだんほとんどの翻訳作業をPinconv上で行っています。変換データファイル「中日.dat」をベースに翻訳用のデータファイルを作成していて、固有名詞や専門用語などを数千語登録しています。

たとえば、翻訳対象である中国語の原文に「发改委」という単語が出てきたとしましょう。この言葉は組織名の略称ですので日本語にすると「発展改革委員会」となります。いつ、どのような文脈で出てきても必ず「発展改革委員会」と訳出することになりますので、毎回「hattennkaikakuiinnkai」とバカ正直にタイピングするのは避けたいところです。

発展改革委員会

そこで先ほどの翻訳用データファイルに「发改委」と「発展改革委員会」のペアを登録しておきます。そうすると次からはGhostを実行するだけで「发改委」が「発展改革委員会」に変換されますので入力の手間が省けます。手間が省けるだけでなく入力ミスの心配もなくなります。効率を上げミスも防ぐ。私のように無精でそそっかしい人間には最適の作業環境です。

しかしながら現実は思うに任せないもので、最終的に納品するのはたいていWordファイルです。表組みやテキストボックスの中を翻訳しなければいけないこともあります。プレーンテキストに落としてしまうとこうしたレイアウトなどの書式情報は保持されないため、自前で復元しなければいけません。当たり前ですがものすごく面倒です。

職人芸の域に達している複雑な表組みやテキストボックスを多用したフローチャートなどは、ツールで翻訳の効率化を実現してもレイアウトを復元する労力の方がそれを上回るのでメリットがありません[1]

Wordからテキストを抽出

そこで必要となるのが次のようなソリューション。Wordファイルからテキストを抜き出し、エディタを使って書式やレイアウトを改変することなくテキスト部分だけを編集し、作業が完了したら修正内容を元のファイルに反映させる。これができれば使い慣れた環境がそのまま使えますし、面倒な編集作業に時間を取られることもありません。

今回Pinconvに実装した「テキストの抽出」と「書き戻し」は、上述の機能を実現するものです。以下、実際の作業手順を紹介します。
read more…

  1. Wordのマクロを利用した支援ツールもあるようですが、なんとなく手を出すのが億劫で今日に至っています。 []
2010/04/08

Pinconv 4.05 – ピンインデータの追加

by ctrans

繁体字の変換
変換データファイル「ピンイン.dat」に繁体字や日本の漢字の発音データを追加したPinconvのバージョン4.05を公開します。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

バージョン4.05では「ピンイン.dat」に多くのデータが追加されましたが、以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データは自動的に更新されません。「変換」メニューのデータファイルの復元を実行し、既存の「ピンイン.dat」を上書きして下さい。なお、これまでご自身が登録したデータは新しいファイルに引き継がれます。

データのインポート

変更点

  • ピンイン変換データに繁体字や日本の漢字のデータを追加追加したほか、複数候補がある漢字のピンインの区切り文字を/から|に変更(データはUnihan.txtを参考にした)
  • 起動時のハイライトの不具合修正
  • 「データファイルの復元」を一部修正
2010/04/06

Pinconv用変換データ – ピンインと注音符号の変換

by ctrans

注音符号への変換

「pin1yin1」のように声調を数字で表現した簡易ピンインと注音符号を相互変換するためのデータファイルを公開します。このデータを利用してPinconvで変換を実行すれば、「pin1yin1」を「ㄆㄧㄣㄧㄣ」にすることができます。

ダウンロード:変換データファイル(zhuyin.zip)[1]

ダウンロードしたZIPファイル(zhuyin.zip)には、「pin2zhu.dat」と「zhu2pin.dat」の2つのデータファイルが含まれています。「pin2zhu.dat」がピンインから注音への変換用データ、「zhu2pin.dat」が注音からピンインへの変換用データです。Pinconvを起動し、「変換」メニューから「データファイルを追加」を実行して登録を行うと使えるようになります[2]

追記:lv(lü)、lve(lüe)、nv(nü)が正しく変換されない問題を修正しました。ぽんた様、ご指摘ありがとうございました(2010/4/10)。
追記:er化の「r」が正しく変換されない問題を修正しました。ぽんた様、ご指摘ありがとうございました(2010/4/16)。

注音に関する作者の知識が乏しいため、変換結果が妥当でない可能性があります。間違いを発見された場合は教えていただければ幸いです。
  1. 4/7:ファイルが1つしか同梱されていなかったため、圧縮ファイルを差し替えました。 []
  2. 上の画像では変換ボタンに表示するテキストをP2Z(pin2zhu-ピンインから注音への変換)とZ2P(zhu2pin-注音からピンインへの変換)に変更しています。 []
2010/03/21

Pinconv4.04 – 新字体から繁体字への変換

by ctrans

Pinconvのバージョンアップを行い、日本の新字体を繁体字に変換するためのデータファイルを追加しました。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データファイル(日繁.dat)は、自動的にインストールされません。「変換」メニューのデータファイルの復元を実行して追加して下さい。

新字体から繁体字への変換

日本語の文章を中国語に翻訳する際、意外に面倒なのが地名や人名、組織名などの固有名詞の翻訳です。同じように漢字を使っているとはいえ、簡体字、繁体字、新字体など漢字にも種類がありますので適当にごまかそうとするとまず間違いなくクレームがつきます。たとえば原文に「広島地方検察庁呉支部(広島県呉市)」とあった場合、台湾で使われている繁体字にすると「廣島地方檢察廳吳支部(廣島縣吳市)」となります。

新字体から繁体字

漢字15文字の内、7文字を繁体字に直さなければならず、日本の新字体に対応する繁体字を1字ずつ調べていく地道な作業が必要となります。10文字程度ならなんとかやっつけることはできても、組織名と住所がずらっと並んだエクセルファイルなどが対象だとしたらどうでしょう。うんざりしますね。

さらに1例をあげれば、「戸内」という日本人名を繁体字にすると「戶內」となります。新字体と繁体字に違いはないように見えるかも知れませんが「戸」と「」、「内」と「」にはそれぞれ異なる文字コードが振られています。日本語をそのままコピー&ペーストして一丁上がりとはいきません。「呑(U+5451)」と「(U+541E)」などこうした字はほかにもいくつかあり、目を皿にして1字1字チェックしていく必要があります。

今回公開したPinconv用の「日繁.dat」は、こうした変換作業の負担を大きく軽減します。日本語のテキストが表示された状態で、このデータファイルを用いて変換を行うと、日本語の漢字が一瞬で繁体字に変換されます。あとは変換結果が妥当かどうか確認するだけ。1字ずつ調べることを考えれば随分楽です。

国字の扱いや制限事項などについて

  1. 「込」や「辻」などのいわゆる国字(和製漢字)は、繁体字に変換することができないため、変換後は「★」が出力されます。国字をそのまま出力したい場合などは、用語集の編集を行って下さい。[1]
  2. 日繁.datは、日本の新字体を台湾で使われている繁体字に変換することを目指しているため、「闘」は「」に変換され、「竃」は「」に変換されます。いわゆる旧字体への変換とは処理結果が異なります。
  3. 「狢」から「貉」への変換など、繁体字に変換する際に異体字や別字に置き換える漢字のうち、作者が注意が必要と判断した漢字は、出力時にアスタリスクが付加されます。作者のデータ管理用に設けたマークですので不要であれば編集して下さい。
  4. 変換データの登録を暫時保留している漢字は、「〓」が出力されます。
  5. 現行バージョンのPinconvにはU+9FA6以降の漢字データを扱えないという制限があります。そのため、この範囲に含まれる漢字を変換しようとしても「〓」が表示されます。ご了承下さい。

予、台、弁、干などの処理について

新字体では、繁体字の「瓣、辮、辯」などが「弁」で代替されています。「花瓣」は「花弁」に、「辮髮」は「弁髪」、「辯護」は「弁護」という風に本来は異なる漢字で表現すべきところを「弁」の1字で済ませているため、これを繁体字に変換するには単語ごとに処理を切り替える必要があります。「日繁.dat」には、こうした単語がいくつか登録されていますが(詳細は以下の一覧を参照)、正しく変換されなかったデータを見つけた場合は、お手数ですがご自分で追加してください。[2]
read more…

  1. 「込」に対応するデータとして「込」を登録すれば、そのまま出力されます。 []
  2. ついでに私にも教えていただければ幸いです< (_ _)> []