May 26, 2007

reCAPTCHA: CAPTCHAによる人力の有効利用

人間による行為であることを確認する手法として著名なCAPTCHAが、書籍の電子化に応用されることになったそうです

reCAPTCHA: Stop Spam, Read Books

CAPTCHAによって行われている人による文字認識を、単にアクセす制御として使うのではなく、書籍の電子化において読み取れなかった文字の認識/修正にも役立てていこうという試みのようです.

recaptcha.png

CAPTCHAの開発者が主張していることだが、「人間の計算能力を利用した新しい技術「ヒューマンコンピューティング」というのは注目に値すると思う.また、計算機やネットワークはあくまで道具」というスタンスを持つ当方としては、こういった人間の能力をうまく利用する技術というのが今後重要になっていくと考える.

これに関する記事

カーネギーメロン大学,画像認証を書籍デジタル化に活用するサービス - 「reCAPTCHA」 (ITmedia)
「CAPTCHA」技術を応用して書籍のデジタル化を進める新ツール「reCAPTCHA」 (CNET Japan)

概要は以下の通り

- 「reCAPTCHAでは,通常のCAPTCHAによる認証時に,デジタル化できなかった不鮮明な文字画像を表示し,適切な文字を入力してもらう。認証用の文字画像と書籍デジタル化用の文字画像を並べて表示し,ユーザーに両方の文字列を入力してもらい,正しい認証用文字列が入力された場合には,書籍デジタル化用の入力文字列も正しい可能性が高いと判断する。この作業を繰り返すことで,書籍デジタル化における文字認識の精度を高めていく」
- 「reCAPTCHAは、従来のCAPTCHAテストで使われているようなランダムな文字列に加え、もう1語をユーザーに提示する。後者は、コンピュータによるOCRでは認識できなかった未知の単語だ。この仕組みは、ユーザーが従来方式の文字列を正しく解読できるなら、未知の単語のほうも判読できるだろう、という発想に基づいている。von Ahn氏によると、現在reCAPTCHAでは、3人の別の人間がある未知の単語を同じように識別した場合に、正しい読み方だと判断しているという。」
- 個人ユーザは無償で利用可能

CNET Japanの記事によると、Microsoftも「Asirra」と呼ばれるプロジェクトで、犬と猫の写真が並べられた中から、猫の写真を選ぶというシステムを提案しているらしい.


Posted by z at May 26, 2007 01:46 AM