Posts tagged ‘変換’

2010/06/29

Pinconv 4.11

by ctrans

Pinconvのバージョンアップを行いました。終了時のコマンドバーとサイドバーの状態を起動時に復元する機能を追加したほか、北辞郎検索に関係する不具合などを修正しています。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

修正点

  • 北辞郎の検索時の検索オプションまわりの不具合を修正
  • 終了時のコマンドバーとサイドバーの状態を起動時に復元するように変更(プラグインによって表示されたものは除く)
  • 検索用のコマンドバーや置換用のサイドバーなどでEscapeキーを押すとエディタ部分にフォーカスが移るように変更
  • 色設定ダイアログのカラーテーマの選択方法を変更
  • 変換データファイルが切り替えられた際のステータスバー更新の不具合を修正
  • 検索時のハイライトの挙動を修正
  • 「ファイルを開く」からWordファイルのテキストを抽出しても「最近開いたファイル」に登録されない不具合を修正
  • Wordのファイルからテキストを抽出する際にインライン要素を無視するオプションを追加(設定ダイアログの「ファイル」タブ)
2010/05/22

Pinconv 4.08 – テンプレート置換と連続置換

by ctrans

テンプレート置換、連続置換、Ghost用ダイアログなどの機能を追加し、置換関連機能を大幅に拡充したPinconvのバージョン4.08を公開します。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

以下、新たに追加した3機能の概要を紹介します。それぞれ詳しい使い方については、ヘルプのテンプレート置換連続置換Ghost用ダイアログをご参照下さい。

read more…

2010/04/11

Pinconv 4.06 – Wordファイルの操作

by ctrans

MS-Wordファイルからテキストを抽出し、編集後に書き戻す機能を追加したPinconvのバージョン4.06を公開します。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

MS-Wordのファイルからテキストを抽出・編集・上書き

word2txt

Wordのファイルをテキストエディタで編集したいと思ったことがあるのは、私だけではないでしょう。Wordは優れたアプリケーションですが、テキストをガリガリと入力する時は使い慣れたテキストエディタの方が効率がいいですし、テキストが相手なら置換や整形、校正、翻訳支援など各種ツールを利用して作業の省力化を図ることができます。

私はふだんほとんどの翻訳作業をPinconv上で行っています。変換データファイル「中日.dat」をベースに翻訳用のデータファイルを作成していて、固有名詞や専門用語などを数千語登録しています。

たとえば、翻訳対象である中国語の原文に「发改委」という単語が出てきたとしましょう。この言葉は組織名の略称ですので日本語にすると「発展改革委員会」となります。いつ、どのような文脈で出てきても必ず「発展改革委員会」と訳出することになりますので、毎回「hattennkaikakuiinnkai」とバカ正直にタイピングするのは避けたいところです。

発展改革委員会

そこで先ほどの翻訳用データファイルに「发改委」と「発展改革委員会」のペアを登録しておきます。そうすると次からはGhostを実行するだけで「发改委」が「発展改革委員会」に変換されますので入力の手間が省けます。手間が省けるだけでなく入力ミスの心配もなくなります。効率を上げミスも防ぐ。私のように無精でそそっかしい人間には最適の作業環境です。

しかしながら現実は思うに任せないもので、最終的に納品するのはたいていWordファイルです。表組みやテキストボックスの中を翻訳しなければいけないこともあります。プレーンテキストに落としてしまうとこうしたレイアウトなどの書式情報は保持されないため、自前で復元しなければいけません。当たり前ですがものすごく面倒です。

職人芸の域に達している複雑な表組みやテキストボックスを多用したフローチャートなどは、ツールで翻訳の効率化を実現してもレイアウトを復元する労力の方がそれを上回るのでメリットがありません[1]

Wordからテキストを抽出

そこで必要となるのが次のようなソリューション。Wordファイルからテキストを抜き出し、エディタを使って書式やレイアウトを改変することなくテキスト部分だけを編集し、作業が完了したら修正内容を元のファイルに反映させる。これができれば使い慣れた環境がそのまま使えますし、面倒な編集作業に時間を取られることもありません。

今回Pinconvに実装した「テキストの抽出」と「書き戻し」は、上述の機能を実現するものです。以下、実際の作業手順を紹介します。
read more…

  1. Wordのマクロを利用した支援ツールもあるようですが、なんとなく手を出すのが億劫で今日に至っています。 []
2010/04/08

Pinconv 4.05 – ピンインデータの追加

by ctrans

繁体字の変換
変換データファイル「ピンイン.dat」に繁体字や日本の漢字の発音データを追加したPinconvのバージョン4.05を公開します。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

バージョン4.05では「ピンイン.dat」に多くのデータが追加されましたが、以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データは自動的に更新されません。「変換」メニューのデータファイルの復元を実行し、既存の「ピンイン.dat」を上書きして下さい。なお、これまでご自身が登録したデータは新しいファイルに引き継がれます。

データのインポート

変更点

  • ピンイン変換データに繁体字や日本の漢字のデータを追加追加したほか、複数候補がある漢字のピンインの区切り文字を/から|に変更(データはUnihan.txtを参考にした)
  • 起動時のハイライトの不具合修正
  • 「データファイルの復元」を一部修正
2010/03/21

Pinconv4.04 – 新字体から繁体字への変換

by ctrans

Pinconvのバージョンアップを行い、日本の新字体を繁体字に変換するためのデータファイルを追加しました。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

以前のバージョンのPinconvからバージョンアップする場合、新たに追加された変換データファイル(日繁.dat)は、自動的にインストールされません。「変換」メニューのデータファイルの復元を実行して追加して下さい。

新字体から繁体字への変換

日本語の文章を中国語に翻訳する際、意外に面倒なのが地名や人名、組織名などの固有名詞の翻訳です。同じように漢字を使っているとはいえ、簡体字、繁体字、新字体など漢字にも種類がありますので適当にごまかそうとするとまず間違いなくクレームがつきます。たとえば原文に「広島地方検察庁呉支部(広島県呉市)」とあった場合、台湾で使われている繁体字にすると「廣島地方檢察廳吳支部(廣島縣吳市)」となります。

新字体から繁体字

漢字15文字の内、7文字を繁体字に直さなければならず、日本の新字体に対応する繁体字を1字ずつ調べていく地道な作業が必要となります。10文字程度ならなんとかやっつけることはできても、組織名と住所がずらっと並んだエクセルファイルなどが対象だとしたらどうでしょう。うんざりしますね。

さらに1例をあげれば、「戸内」という日本人名を繁体字にすると「戶內」となります。新字体と繁体字に違いはないように見えるかも知れませんが「戸」と「」、「内」と「」にはそれぞれ異なる文字コードが振られています。日本語をそのままコピー&ペーストして一丁上がりとはいきません。「呑(U+5451)」と「(U+541E)」などこうした字はほかにもいくつかあり、目を皿にして1字1字チェックしていく必要があります。

今回公開したPinconv用の「日繁.dat」は、こうした変換作業の負担を大きく軽減します。日本語のテキストが表示された状態で、このデータファイルを用いて変換を行うと、日本語の漢字が一瞬で繁体字に変換されます。あとは変換結果が妥当かどうか確認するだけ。1字ずつ調べることを考えれば随分楽です。

国字の扱いや制限事項などについて

  1. 「込」や「辻」などのいわゆる国字(和製漢字)は、繁体字に変換することができないため、変換後は「★」が出力されます。国字をそのまま出力したい場合などは、用語集の編集を行って下さい。[1]
  2. 日繁.datは、日本の新字体を台湾で使われている繁体字に変換することを目指しているため、「闘」は「」に変換され、「竃」は「」に変換されます。いわゆる旧字体への変換とは処理結果が異なります。
  3. 「狢」から「貉」への変換など、繁体字に変換する際に異体字や別字に置き換える漢字のうち、作者が注意が必要と判断した漢字は、出力時にアスタリスクが付加されます。作者のデータ管理用に設けたマークですので不要であれば編集して下さい。
  4. 変換データの登録を暫時保留している漢字は、「〓」が出力されます。
  5. 現行バージョンのPinconvにはU+9FA6以降の漢字データを扱えないという制限があります。そのため、この範囲に含まれる漢字を変換しようとしても「〓」が表示されます。ご了承下さい。

予、台、弁、干などの処理について

新字体では、繁体字の「瓣、辮、辯」などが「弁」で代替されています。「花瓣」は「花弁」に、「辮髮」は「弁髪」、「辯護」は「弁護」という風に本来は異なる漢字で表現すべきところを「弁」の1字で済ませているため、これを繁体字に変換するには単語ごとに処理を切り替える必要があります。「日繁.dat」には、こうした単語がいくつか登録されていますが(詳細は以下の一覧を参照)、正しく変換されなかったデータを見つけた場合は、お手数ですがご自分で追加してください。[2]
read more…

  1. 「込」に対応するデータとして「込」を登録すれば、そのまま出力されます。 []
  2. ついでに私にも教えていただければ幸いです< (_ _)> []
2010/03/12

TABLEIZER – エクセルからTableに変換

by ctrans

HTMLはテキストエディタで手入力することが多いが、表の作成は面倒なのでエクセルで作成したい。だが、エクセルで表を作成してHTML形式で保存するといろいろとゴミが混ざり、再利用するには使い勝手が悪い。「なんとかならないのか」と頭を掻き毟っていたらTABLEIZER!というぴったりのサービスが見つかった。

TABLEIZER

エクセルで変換したい範囲をコピーしてTABLEIZER!のテキストエリアに張り付け、簡単なオプションを指定するだけでTableタグに変換してくれる。このエントリの表もTABLEIZER!で作成した。日本語などのデータは数値参照に変換されてしまったが、あっという間に表ができて大満足である。便利。

Pinconv 4.03 – 繁体字から新字体への変換

by ctrans

Pinconvのバージョンアップを行い、繁体字を新字体に変換するためのデータファイルを追加しました。このデータを利用することで台湾などで利用されている繁体字をふだん使っている新字体に変換することができます。また、コマンドバーから変換データに対応するボタンを削除する際の不具合も修正しました。

Pinconvの紹介はこちらのエントリ、詳しい使い方についてはPinconvの使い方を参照下さい。窓の杜による紹介記事はこちらです。

修正点

繁体字の変換

  • 繁体字を新字体に変換するデータファイルを追加
  • 変換データに対応するボタンをコマンドバーから削除する際の不具合(削除すると変換やghostが正しく行えなくなる)の修正

新たに追加された繁体字を新字体に変換するためのデータファイルは、ツールバーの「convert」をクリックし、表示される変換コマンドバーで「繁日」を選択すると利用することができます。なお、繁体字に対応する日本語の漢字が存在しない場合、「〓」が出力されます。たとえば「能夠」は「能〓」、「謊言」は「〓言」に変換されます。変換データの内容は完全なものではありません。今後も見直しを行っていく予定のものですので、変換結果を利用する際は必ずご自身でチェックを行って下さい。

変換データについての補足説明

Pinconvの「繁日」変換データは、国語審議会の印刷標準字体に準じていません。変換データ作成時のメモ書きを以下に示しますので、必要に応じてデータを編集して下さい。
read more…

  1. バージョンアップでは「繁日.dat」が正しくインストールされないため、「変換」メニューの「データファイルを追加」を実行し、「繁日.dat」を追加して下さい。この不具合は近日中に修正します。 []
2010/03/11

LCMapStringと潟

by ctrans

潟
WindowsにはLCMapStringという関数が用意されている。文字列の全角/半角やひらがな/カタカナの変換機能を提供する関数で、簡体字/繁体字の変換もサポートしているのだが、この関数の変換テーブルには間違いがあるようだ。

テキストエディターのEmEditorで提供されている簡繁変換のプラグインもこの関数を利用しているのだが、繁体字のを変換するとに変換されてしまう。の繁体字はで潟とは全く別の字である。「干潟」が「干泻(ひからびた下痢)」になったり、「新潟」が「新泻(新しい下痢)」になったりして困る。

大陸のWEBサイトなどでたまに「新泻县」を目にするのは、この関数が原因のひとつと考えられる。

追記:Googleで台湾のサイトを対象に「潟」の検索をすると「潟」と「」が同一視される。問題の根は深い。

こうした間違いが起こる原因として、写の旧字体である「寫」と俗字の「冩」の存在が考えられる。これらの新字体はいずれも「写」であるため、「潟」の簡体字として「」が類推されたのだろう。
」は日本でも「潟」の略字として使われてきたのでややこしいが[1]、中国における簡体字の成立には関係ないのでここでは触れない。
関連:新潟県:中国語における「新潟」の表記について
  1. 参照:「異体字の世界」のP84など []
2010/03/04

Pinconv – ピンインをカタカナに変換する

by ctrans

某社で中国関係の業務を担当しているA氏に社長が声をかけた。
「今度、中国の工場に行く件でちょっと相談なんだが、せっかくだから現地の従業員に中国語であいさつしようと思ってね。忙しいところ悪いんだが、この日本語を中国語に翻訳して中国語の読みをカタカナで下に書いてくれないか」
A氏は、ピンインと声調を覚えて発音の練習しないとカタカナ読みでは通じないですよ、と出かかった言葉を飲み込み、「なるほど、現地の従業員も喜びますね。それでは一両日中に用意してお届けします」と返事をした。波風を立てない大人の対応である。
社長はA氏の肩をポンと叩き、じゃあよろしくと背を向ける。A氏は軽く会釈をして渡された原稿を広げ、面倒なことを頼まれたなと溜息をついた。

*  *  *

ということで、今回はこのA氏の手助けをしようと思う。翻訳については素晴らしい中国語訳が完成しているという前提で、その中国語をカタカナに変換する。使う道具はPinconvで、段取りとしては中国語→簡易ピンイン→カタカナの順に変換を行う。拼音→pin1yin1→ピンインというかたちだ。

中国語の変換

中国語を簡易ピンインに変換するデータファイルは、Pinconvですでに実現されているため、簡易ピンインをカタカナにするための変換データを新たに作成する。

read more…

2010/01/17

Pinconv 4

by ctrans

スクリーンキャストPinconvは、漢字をピンインに変換したり、簡体字を日本の漢字に変換したり、簡体字を繁体字に変換したりするツールです。たとえば中華圏の人物や会社、建物、地名などを日本に紹介する際は、簡体字や繁体字を日本の漢字に置き換える必要がありますが、1文字ずつ対応する漢字を確認していくのは大変な作業です。Pinconvを使えば、元の中国語のテキストを張り付けて変換ボタンを押すだけで、この大変な作業をあっという間に片付けることができます。

特徴

1. 複数パターンの高速一括変換

s2t複数の変換パターンをまとめて処理するために内部処理を最適化していますので、簡体字からピンインへの変換や繁体字から簡体字への変換など、変換パターンが数千~数万組単位で登録されていても高速に処理を行うことができます。

また、文字単位ではなく単語単位で変換を行いますので[1]、たとえば簡体字から繁体字への変換では「头发」は「頭髮」に、「发布」を「發布」に変換することができますし、システムに登録されていないデータがあってもユーザが簡単に編集することができます。

2. 翻訳作業をサポートする多彩な機能

Ghostで対訳変換Vacuumで対訳テキストを整形翻訳メモリ機能

Pinconvには中国語翻訳者である作者が日々の作業を効率化するために実装した機能が多数盛り込まれています。Pinconvの変換機能を利用し、原文と変換後の文字列を対訳表示するGhost、翻訳作業後に対訳表示の原文部分を削除し、訳文のみに整形した上で対訳データベースに原文と訳文を保存するVacuum、対訳データベースから類似文字列を検索し、Pinconvを翻訳メモリツール化するあいまい検索機能などは、翻訳効率の大幅な向上を約束します。

3. 多言語対応エディタ

UnicodePinconvは、Unicodeに対応しています。そのため、中国語と日本語など複数の言語が混在していても問題なく表示することができます。

UndoやRedo、クリッカブルURL、タブによる複数ファイルの管理、強調表示、正規表現に対応した検索と置換といったエディタとしての基本的な機能を備え、行間や折り返し、文字色や背景色など細かい部分まで設定を行うことが可能です。

また、EUC-JPやシフトJIS、UTF-8やGB2312、BIG5など複数の文字コードでのファイルの読み書きにも対応しています。

4. 豊富な検索機能

北辞郎の検索WEB検索

オンライン中日辞書 北辞郎との連携機能を備えていますので、分からない単語があっても右クリックから簡単に意味を調べることができます。読みが分からない漢字を調べるための「部首画数検索」や選択した文字列をWEBサイトで検索する「Web検索」機能も調べ物を強力にサポートします。

5. プラグインで機能拡充

Pinconv4にはプラグイン機能が用意されており、インストール時には編集作業をサポートする5つのプラグインが同梱されています。

    pinconv

  1. 日本語校閲
    Yahoo!デベロッパーネットワークの校正支援を利用して編集中のファイルの校正を行うことができます。
  2. あいまい検索
    編集中のファイルや対訳データベースを対象にあいまい検索を行うことができます。Pinconvに翻訳メモリ的な機能を追加するものです。
  3. Grep
    フォルダ内の全ファイルを対象に検索を行います。サブフォルダの検索や正規表現を利用した検索が可能です。
  4. 見出し一覧
    指定した文字列から始まる行を一覧表示することができます。正規表現が利用できるほか、ブックマークした行だけを一覧表示することもできます。
  5. 文字数カウント
    コメント行とそれ以外の行を分けて文字数をカウントしたり、カーソル行までの文字数、カーソル行以降の文字数などをカウントすることができます。

read more…

  1. 最長一致で変換を行います。 []