reCAPTCHA
reCAPTCHA — це система, що була початково розроблена в університеті Карнегі Мелон і базується на використанні CAPTCHA для оцифровування текстів книг заодно із захистом веб-сайтів від доступу ботами до обмежених ресурсів.[1] 16 вересня 2009 року Google придбав reCAPTCHA.[2] У цей час reCAPTCHA оцифровує архіви газети New York Times.[3] Вже опрацьовано випуски The New York Times за двадцять років і очікується, що у 2010-ому буде оцифровано архіви ще за 110 років.[4]
reCAPTCHA постачає передплачені сайти зображення слів, які не можуть розпізнанні за допомогою програмного забезпечення для оптичного розпізнавання символів. Підписані сайти, які як правило не пов'язані з проектами оцифрування книг, пропонують ці зображення людям для розпізнавання як слова CAPTCHA, що є частиною звичайного процесу валідації. Потім вони відсилають результати до сервісу reCAPTCHA, який у свою чергу відсилає їх до проектів оцифрування.
Заявлено, що система вирішує 200 мільйонів капч щодня,[5] і налічує такі популярні сайти як Facebook, TicketMaster, Twitter та StumbleUpon серед передплатників.[6] Craigslist почав використовувати reCAPTCHA у липні 2008-ого.[7]
Зміст |
Походження [ред.]
Програма reCAPTCHA походить від гватемальського комп'ютерного науковця Луїс фон Ана, лауреата стипендії МакАртура. Як ранній розробник CAPTCHA, він зрозумів, що «він мимовільно створив систему, що розтринькує десяти-секундними шматками мільйони годин найціннішого ресурсу: мозкову діяльність людини.»[8]
Процес [ред.]
Сканований текст аналізується двома різними програмами оптичного розпізнавання символів; у випадку, коли програми дають різний результат, сумнівне слово конвертується у CAPTCHA. Слово відображається разом із уже відомим контрольним словом. Система робить припущення, що якщо людина вводить контрольне слово вірно, то і сумнівне слово теж введено вірно. Ідентифікації, проведеної кожною з OCR-програм, надається значення 0.5, а кожній інтерпретації людини — 1. Як тільки в сумі набирається 2.5, то слово розглядається як розпізнане. Такі слова надалі використовуються повторно у якості контрольних.[9]
Реалізація [ред.]
Тести reCAPTCHA беруть з центрального сайту проекту reCAPTCHA так як вони містять нерозпізнані слова. Це виконується через JavaScript API із зворотнім викликом сервера до reCAPTCHA після зробленого запиту. Проект reCAPTCHA надає бібліотеки для різних мов програмування та додатків, щоб зробити цей процес простішим. reCAPTCHA є безкоштовним сервісом (тобто зображення CAPTCHA надаються сайтам безкоштовно взамін за допомогу у оцифруванні)[10], проте програмне забезпечення reCAPTCHA не є open source-ним.
Також reCAPTCHA пропонує плагіни до різних веб-платформ, як ASP.NET чи PHP, щоб спростити реалізацію сервісу.
Mailhide [ред.]
reCAPTCHA також створив проект Mailhide[11], що захищає адреси електронної пошти на веб-сторінках від збирання спамботами. Адреса e-mail ковертується у формат, що не дозволяє «павуку» побачити повну адресу. Наприклад, «noreply@example.com» буде перетворене у «nor…@example.com». Щоб побачити повну адресу, відвідувачу потрібно буде натиснути на «…» і пройти CAPTCHA.
Примітки [ред.]
- ↑ Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum reCAPTCHA: Human-Based Character Recognition via Web Security Measures (PDF) // Science. — Т. 321. — (2008) С. 1465–1468. DOI:10.1126/science.1160379.
- ↑ «Teaching computers to read: Google acquires reCAPTCHA» (англ.). Google. Процитовано 2009-09-16.
- ↑ «Learn more» (англ.). reCAPTCHA.net. Процитовано 2008-11-23.
- ↑ Luis von Ahn. NOVA ScienceNow s04e01 [Television production]. Перевірено 2009-07-06. Подія відбулася 46:58. “The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time.”
- ↑ http://recaptcha.net/aboutus.html
- ↑ Rubens, Paul (2007-10-02). «Spam weapon helps preserve books» (англ.). BBC.
- ↑ «Fight Spam, Digitize Books» (англ.). Craigslist Blog. 2008-06.
- ↑ Hutchinson, Alex (March 2009), «Human Resources: The job you didn't even know you had» (англ.), The Walrus: 15–16
- ↑ Timmer, John (2008-08-14). «CAPTCHAs work? for digitizing old, damaged texts, manuscripts» (англ.). Ars Technica. Процитовано 2008-12-09.
- ↑ «FAQ» (англ.). reCAPTCHA.net.
- ↑ «Mailhide: Free Spam Protection» (англ.). reCAPTCHA.net.
Посилання [ред.]
- The reCAPTCHA project (англ.)
- ReCAPTCHA: The job you didn’t even know you had(англ.) Стаття у журналі The Walrus