Posts tagged ‘Unicode’

2010/03/09

埓と埒

by ctrans

57D2

「埒が明かない」などに使う「埒」という漢字は、MS明朝などの日本語フォントでは上図左のように表示され、繁体字のMingLiuでは真ん中のように、簡体字のSimSunでは右のように表示される。少しずつ形が違うが、いずれもUnicodeでは57D2という番号が与えられている同じ漢字である。「同じ漢字でも国によって形が違うんですなあ、面白いですなあ」とのんきに流しておきたいところだが、この字の場合は異体字に「埓」(U+57D3)があるのでややこしい。

現在、Pinconvで繁体字を日本の漢字に変換するデータファイルを作成しているのだが、繁体字の「」に対応するデータをどうするかで脳内会議が紛糾した。字形が同じなんだから繁体字から日本の漢字への変換なら57D2→57D3でもいいんじゃない?そんなこと言ったら「吞(U+541E)」と「呑(U+5451)」なんかぱっと見違いがないから変換しないでいいという話になるだろう。いやそうはならんだろう。そもそもこれはMingLiuの問題じゃないのか。ほかのフォントだとどうなんだ。文字コードに字形の話を持ち込むなよ。いや今してるのは変換の話だ。黙れ小童。なんだとこのヤロウ、わーわー。……侃々諤々、丁々発止である。

MS-IMEでは「不埒」と「放埓」で違う文字が出力されるそうだが他人事ではない。MingLiuの埒の字形が10pt以下ではSimSunと同じになったりして混乱に拍車をかける。困った時の駆け込み寺である教育部異體字字典でも軽く門前払いされた。うーむ。

結局、異体字に変換するわけにもいかんだろうということでU+57D2のままにしている。こんなのがたくさん出てこないことを祈る。

参考:旧い漢字の使い方~旧字・異体字・俗字~ 【埒】と【埓】
関連:字典中 埒 字的解释

2008/07/23

Unihan.txtをエクセルで

by ctrans

ma

Unihan DatabaseをMicrosoft Excelで閲覧できるように整形しました。収録しているデータの範囲は、U+3400からU+FAD9までとなります。フィールド名は、UAX #38: Unicode Han Database (Unihan)で説明されている通りですが、1列目に漢字を追加してあります。

ダウンロード:UnihanXls.zip (5.96MB)
ライセンス:Unihan Databaseのライセンスに準じます。

2008/03/24

Full Screen Editor – Wu

by ctrans

wu

Wu はフルスクリーンエディタです。WriteroomDark Roomのように集中して文章を書くための環境を提供します。起動すると黒い画面にカーソルだけが浮かび、文章を書く以外のことができなくなります。
Wu is a full screen editor that offers a distraction-free writing environment such as Writeroom or Dark Room. Only black screen and a cursor are shown when starting Wu. All you can do is to write text.

wuDownLoad: wu.zip (1.59MB)

注意:フルスクリーンエディタですので、「閉じる」ボタンなども表示されません。Wu を終了する際は、Ctrl+Qを押します。フルスクリーン表示をやめる時は「Escape」キーを押して下さい。

read more…

2007/07/30

漢字の検索

by ctrans

hanzi
漢字の読みを調べたいときに便利なサイトやツールを集めてみました。
入力したい漢字の読みが分からない場合、通常はATOKの文字パレットの漢字検索で問題を解決することができます。「部首、画数、読み」から検索できますし、手書き入力にも対応していますので、たいていの場合は、これで大丈夫だと思います(MS-IMEにも同様の機能はあります)。調査対象が簡体字である場合は、北辞郎の部首画数検索を使えば調べることができます。
問題は、この2つのツールを使っても読みが判明しないケースです。たとえば「」などは上手く検索できません。こういうときは以下のサイトを使います(制作者のみなさんに感謝)。
read more…

2005/07/10

検索ツール 朧

by ctrans

「朧」は辞書やテキストファイルを検索するためのソフトです。正規表現を使って辞書から類義語を検索して一括表示したり、コーパス代わりのテキストファイルを検索して単語の用例を抽出するなどいろんな使い方が出来ます。特徴は以下の通りです。

  1. 複数の辞書を切り替えて使える。
  2. 辞書の文字コードには、Unicode、GB2312、UTF-8、BIG5、シフトJISの中から任意のものを選択可。
  3. 検索に正規表現が使える(複数単語の一括検索も可能)。
  4. 辞書ファイル以外のテキストファイルも検索可能なので、単語の用例抽出などにも使える。

ダウンロードoboro.lzh
ヘルプ、スクリーンショットはこちらから

2005/07/08

PDIC用中国語辞書

by ctrans

辞書検索ソフトPDIC/Unicode用の辞書ファイルを公開します。収録語数は5万5千語です。一般的な常用単語はもちろん、蓝光(ブルーレイ)、火狐(Firefox)と言った新語をはじめ、靛胭脂(インジゴカルミン)や丙二酚A型环氧树脂(ビスフェノールA型エポキシ樹脂)などの専門用語、普通の辞書ではまず収録されていない麦克马洪线(マクマホン・ライン)など作者の好奇心の赴くままに様々な言葉を収録しています。中国語学習や業務のお供にぜひご利用下さい。

ダウンロード

PDIC用中国語辞書ファイル

シェアウェア

この中国語辞書ファイルは送金義務はありませんがシェアウェアです。気に入ったら送金下さい。また、このファイルの著作権はタケウチが所有しています。無断で配布、改編などを行うことを禁じます。シェアウェア登録はベクター(↓)から行ってください。

ベクターの関連ページ

謝辞

すばらしいソフトを開発されたPDIC作者のTaN氏に感謝します。