reCAPTCHA

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Логотип reCAPTCHA

reCAPTCHA — це система, що була початково розроблена в університеті Карнегі Мелон і базується на використанні CAPTCHA для оцифровування текстів книг заодно із захистом веб-сайтів від доступу ботами до обмежених ресурсів.[1] 16 вересня 2009 року Google придбав reCAPTCHA.[2] У цей час reCAPTCHA оцифровує архіви газети New York Times.[3] Вже опрацьовано випуски The New York Times за двадцять років і очікується, що у 2010-ому буде оцифровано архіви ще за 110 років.[4]

reCAPTCHA постачає передплачені сайти зображення слів, які не можуть розпізнанні за допомогою програмного забезпечення для оптичного розпізнавання символів. Підписані сайти, які як правило не пов'язані з проектами оцифрування книг, пропонують ці зображення людям для розпізнавання як слова CAPTCHA, що є частиною звичайного процесу валідації. Потім вони відсилають результати до сервісу reCAPTCHA, який у свою чергу відсилає їх до проектів оцифрування.

Заявлено, що система вирішує 200 мільйонів капч щодня,[5] і налічує такі популярні сайти як Facebook, TicketMaster, Twitter та StumbleUpon серед передплатників.[6] Craigslist почав використовувати reCAPTCHA у липні 2008-ого.[7]

Походження[ред.ред. код]

Програма reCAPTCHA походить від гватемальського комп'ютерного науковця Луїс фон Ана, лауреата стипендії МакАртура. Як ранній розробник CAPTCHA, він зрозумів, що «він мимовільно створив систему, що розтринькує десяти-секундними шматками мільйони годин найціннішого ресурсу: мозкову діяльність людини.»[8]

Процес[ред.ред. код]

Сканований текст аналізується двома різними програмами оптичного розпізнавання символів; у випадку, коли програми дають різний результат, сумнівне слово конвертується у CAPTCHA. Слово відображається разом із уже відомим контрольним словом. Система робить припущення, що якщо людина вводить контрольне слово вірно, то і сумнівне слово теж введено вірно. Ідентифікації, проведеної кожною з OCR-програм, надається значення 0.5, а кожній інтерпретації людини — 1. Як тільки в сумі набирається 2.5, то слово розглядається як розпізнане. Такі слова надалі використовуються повторно у якості контрольних.[9]

Реалізація[ред.ред. код]

Тести reCAPTCHA беруть з центрального сайту проекту reCAPTCHA так як вони містять нерозпізнані слова. Це виконується через JavaScript API із зворотнім викликом сервера до reCAPTCHA після зробленого запиту. Проект reCAPTCHA надає бібліотеки для різних мов програмування та додатків, щоб зробити цей процес простішим. reCAPTCHA є безкоштовним сервісом (тобто зображення CAPTCHA надаються сайтам безкоштовно взамін за допомогу у оцифруванні)[10], проте програмне забезпечення reCAPTCHA не є open source-ним.

Також reCAPTCHA пропонує плагіни до різних веб-платформ, як ASP.NET чи PHP, щоб спростити реалізацію сервісу.

Mailhide[ред.ред. код]

reCAPTCHA також створив проект Mailhide[11], що захищає адреси електронної пошти на веб-сторінках від збирання спамботами. Адреса e-mail ковертується у формат, що не дозволяє «павуку» побачити повну адресу. Наприклад, «noreply@example.com» буде перетворене у «nor…@example.com». Щоб побачити повну адресу, відвідувачу потрібно буде натиснути на «…» і пройти CAPTCHA.

Примітки[ред.ред. код]

  1. Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum (2008). «reCAPTCHA: Human-Based Character Recognition via Web Security Measures» (PDF). Science 321 (5895). с. 1465–1468. doi:10.1126/science.1160379. 
  2. «Teaching computers to read: Google acquires reCAPTCHA» (англ.). Google. Архів оригіналу за 2013-07-06. Процитовано 2009-09-16. 
  3. «Learn more» (англ.). reCAPTCHA.net. Архів оригіналу за 2013-07-06. Процитовано 2008-11-23. 
  4. Luis von Ahn. NOVA ScienceNow s04e01 [Television production]. Перевірено 2009-07-06. Подія відбулася 46:58. “The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time.”
  5. http://recaptcha.net/aboutus.html
  6. Rubens, Paul (2007-10-02). «Spam weapon helps preserve books» (англ.). BBC. Архів оригіналу за 2013-07-06. 
  7. «Fight Spam, Digitize Books» (англ.). Craigslist Blog. 2008-06. Архів оригіналу за 2013-07-06. 
  8. Hutchinson, Alex (March 2009), «Human Resources: The job you didn't even know you had» (англ.), The Walrus: 15–16 
  9. Timmer, John (2008-08-14). «CAPTCHAs work? for digitizing old, damaged texts, manuscripts» (англ.). Ars Technica. Архів оригіналу за 2013-07-06. Процитовано 2008-12-09. 
  10. «FAQ» (англ.). reCAPTCHA.net. Архів оригіналу за 2013-07-06. 
  11. «Mailhide: Free Spam Protection» (англ.). reCAPTCHA.net. 

Посилання[ред.ред. код]