文字認識APIにデータ提供

Pocket

ドコモの文字認識APIに中国語データを提供しました。詳細は公式サイトに譲りますが、文字認識APIは、画像に含まれる文字を認識して単語を抽出するサービスです。今回は当方が構築しているデータベースから簡体字データと繁体字データを提供しました。文字認識APIが中国語に対応すれば、「旅先にて携帯で写真撮影」→「画像に含まれる文字認識」→「認識した文字を北辞郎で検索」というようなことが可能になります。実に楽しそうですね。将来的にいろんなアプリやサービスがリリースされて、そこでごく一部とはいえ自分のデータが訳に立っているとすれば、それはとてもうれしいことです。声をかけてくださった関係者の皆様、ありがとうございました。

念のためにお断りしておくと、今回のデータは北辞郎とは無関係です。生来の収集癖もあり、当方の手元には各種中国語データがたまっていて、形態素解析用の見出し語データや常用語のデータ、ピンインデータ、簡体字と繁体字の変換用テーブルなどがあります。これまでは自分でツールを作成する時に使うだけでしたが、今後は外部に提供することも検討していきますので、興味のある方はご一報ください。

関連:文字認識API | NTTドコモ

コメントする

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください