中国語の単語分割

中国語や日本語の情報に対してコンピューターで何らかの処理、たとえば統計的な処理、要約、キーワード抽出などを行いたいと思った場合、まずは文章を単語単位に分割する必要がある。欧米の言語と違い、中国語などは単語間にスペース(区...

PHPで日本語の形態素解析

対訳データベースの実装に際し、中国語の原文と日本語の訳文を形態素解析で単語単位にばらし、それをインデックスにしようとしたのですが、PHPで形態素解析ってどういうライブラリがあるのかしらん、と疑問の壁に激突したのでメモ。 ...