Сканторпська проблема

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Приклад Сканторпської проблеми

Сканторпська проблема (англ. Scunthorpe problem) — це ненавмисне блокування вебсайтів, електронних листів, дописів на форумах або результатів пошуку фільтром спаму або пошуковою системою через те, що їхній текст містить рядок літер, які мають обсценне або неприйнятне значення. За повідомленнями, найчастіше проблема зачіпає найменування, скорочення та технічні терміни.

Проблема виникає, оскільки комп'ютери можуть легко ідентифікувати рядки тексту в документі, але для інтерпретації слів такого роду потрібна значна здатність інтерпретувати широкий спектр контекстів, можливо, у багатьох культурах, що є надзвичайно складним завданням. У результаті широкі правила блокування можуть спричинити хибно позитивні спрацювання і блокування невинних фраз.

Походження та історія[ред. | ред. код]

Проблема отримала таку назву після інциденту в 1996 році, коли фільтр лихослів'я AOL не дозволяв жителям міста Сканторп (Північний Лінкольншир, Англія) створювати облікові записи в AOL, оскільки назва міста (англ. Scunthorpe) містить підрядок «cunt», що є грубістю в англійській мові.[1] Багато років по тому, додаткові фільтри безпечного пошуку в Google, імовірно, припустилися тієї ж помилки, внаслідок чого користувачі не могли шукати місцеві підприємства, у назвах яких було слово Scunthorpe.[2]

Інші приклади[ред. | ред. код]

Серед помилкових рішень фільтрів непристойностей були такі випадки:

Цензуровані результати голосового пошуку[ред. | ред. код]

Відмова у реєстрації доменних імен та облікових записів[ред. | ред. код]

  • У квітні 1998 року, Джефф Голд спробував зареєструвати доменне ім'я shitakemushrooms.com, але через підрядок shit він був заблокований фільтром InterNIC[en] заборони «семи брудних слів»[en], який був активний в період 1996—98 років.[5] (Shitake, тобто шіїтаке — це японська назва їстівного гриба Lentinula edodes).
  • У 2000 році в канадському телевізійному сюжеті про програмне забезпечення вебфільтрування йшлося про те, що вебсайт Монреальської міської громади (фр. Communauté urbaine de Montréal) був повністю заблокований, оскільки його доменне ім'я відповідало його абревіатурі французькою — CUM (www.cum.qc.ca);[6] «cum» (серед інших значень) — це англомовний сленг на позначення сперми.
  • У лютому 2004 року в Шотландії Крейг Кокберн повідомив, що не може використовувати своє прізвище (пишеться Cockburn, а вимовляється як Coburn) у Hotmail. Окрім цього, у нього виникли проблеми з електронною поштою на робочому місці, оскільки його посада, спеціаліст із програмного забезпечення (англ. software specialist), містила підрядок «cialis», що є назвою препарату для лікування еректильної дисфункції, реклама якого часто міститься у спамних листах. Hotmail спочатку порадили йому написати своє ім'я C0ckburn (з нулем замість літери «o»), але пізніше заборону відмінили.[7] У 2010 році у нього була аналогічна проблема з реєстрацією на вебсайті Бі-Бі-Сі, де знову чотири перших символи його прізвища спричинили проблему з фільтром вмісту.[8]
  • У лютому 2006 року Лінді Каллахан спочатку не змогла зареєструвати своє ім'я в Yahoo! як адресу електронної пошти, оскільки її прізвище містить підрядок «аллах». Yahoo! пізніше скасували заборону.[9]
  • У липні 2008 р. доктор Герман І. Лібшиц не зміг зареєструвати адресу електронної пошти від Verizon, оскільки його прізвище містить підрядок shit, і Verizon спочатку відхилили його запит на виняток. У наступній заяві прессекретар Verizon вибачився за те, що не підтвердив бажану адресу електронної пошти.[10]
  • У серпні 2018 року Наталі Вінер повідомила в соціальних мережах, що не змогла створити обліковий запис для себе на вебсайті, оскільки її прізвище (англ. Weiner) — це слово, яке також використовується як сленг для пеніса. Повідомлялося, що «сотні» людей відповіли, що це впливає і на них. Серед тих, хто відповів, були особи на ім'я Бен Шмук (прізвище — слово «пеніс» ідишем) та Арун Дікшит (прізвище — «той, хто навчає» санскритом, але містить підрядок shit у написанні латинкою).[11][12][13] Статті, що висвітлюють це, зазначають, що це звичайна і надзвичайно складна технічна проблема, для якої наразі не існує надійного рішення.

Заблоковані вебпошуки[ред. | ред. код]

  • Упродовж кількох місяців до початку 1996 року, деякі пошукові запити Super Bowl XXX[en] фільтрувались, оскільки римське число порядкового номера гри (XXX) також використовується для ідентифікації порнографії.[14]
  • Гарет Рулофсе, вебдизайнер сайту RomansInSussex.com, зазначив у 2004 році: «Ми виявили, що багато бібліотечних, шкільних мереж та Інтернет-кафе блокують сайти зі словом „секс“ у доменному імені. Це було викликом для RomansInSussex.co.uk, оскільки його цільова аудиторія — школярі».[2]
  • У 2008 році фільтр безкоштовного бездротового обслуговування міста Факатане (англ. Whakatane) в Новій Зеландії заблокував пошукові запити, що містили назву самого міста, оскільки фонетичний аналіз фільтра вважав, що «whak» звучить як fuck; назва міста є маорійським словом, а в маорійській мові «wh» найчастіше вимовляється як «f». Потім місто додало назву міста у білий список фільтра.[15]
  • У липні 2011 року вебпошук у Китаї зі словом «Цзян» був заблокований після того, як на сайті мікроблогів Sina Weibo з'явилися заяви про те, що колишній президент Цзян Цземінь помер. Оскільки слово «Цзян», що означає «річка», пишеться тим же китайським символом (江), то і пошуки, пов'язані з річками, включаючи Янцзи (назва якої містить цей символ), видавали повідомлення «Згідно з відповідними законам, правилами та політиками, результати цього пошуку не показуються».[16]
  • У лютому 2018 року на торговій платформі Google були заблоковані вебпошуки таких речей як glue guns, Guns N' Roses та Burgundy після того, як Google поспішно додав у свою пошукову систему фільтр на результати щодо зброї.[17]

Заблоковані електронні листи[ред. | ред. код]

  • У лютому 2003 року депутати парламенту Британської палати громад виявили, що новий фільтр спаму блокує електронні листи. Він заблокував електронні листи, що містили посилання на законопроект про сексуальні правопорушення, який тоді обговорювався, а також деякі повідомлення, що стосувалися консультаційного документу ліберал-демократів щодо цензури.[18] Він також заблокував електронні листи, написані валлійською, оскільки не розпізнав мову.[19]
  • У жовтні 2004 року повідомлялося, що Музей Горнімана в Лондоні не отримував частину своєї електронної пошти, оскільки фільтри помилково трактували його назву (англ. Horniman Museum) як альтернативне написання horny man. Horny — поширений сленговий термін в англійській мові на позначення сексуального збудження.[20]
  • Проблеми можуть виникати зі словами socialism, socialist та specialist, оскільки вони містять підрядок Cialis. Блокування слова specialist впливає на надіслані резюме, CV та інші матеріали, включаючи посадові інструкції.[21]

Заблоковано для слів із двома значеннями[ред. | ред. код]

  • У жовтні 2004 року електронні листи, що рекламували пантоміму Діка Віттінгтона, надіслані вчителем з Норвіча у Сполученому Королівстві, були заблоковані шкільними комп'ютерами через використання імені Дік (похідне від Річард), оскільки dick іноді використовується як сленг для пеніса.[22]
  • У травні 2006 року чоловік з Манчестера виявив, що електронні листи зі скаргами на міське планування, які він писав у місцеву раду, були заблоковані, оскільки вони містили слово erection у стосунку до зведення будівель (інше значення слова — ерекція).[23]
  • У 2007 році Королівське товариство охорони птахів заблокувало на своїх дискусійних форумах такі орнітологічні терміни, такі як cock (півень), tit (синиця), shag (баклан чубатий) та booby (сула).[24]
  • Заблоковані електронні листи та вебпошуки, пов'язані з журналом «Бівер» (Вінніпег), змусили видавця змінити ім'я із The Beaver на Canada's History у 2010 році, після 89 років публікації.[25] Видавець Дебора Моррісон прокоментувала: «Ще в 1920 році The Beaver було цілком прийнятною назвою. І хоча його інше значення [ піхва ] не є новим, його неоднозначність почала створювати зовсім нові проблеми з поширенням Інтернету. Назва стала перешкодою нашому зростанню».[26]
  • У червні 2010 року Twitter заблокував користувача з Люксембурга через 29 хвилин після того, як він відкрив свій акаунт і опублікував свій перший твіт. Користувач написав «Нарешті! Пара великих синиць (Parus major) перебралася у мій пташник!». «Великі синиці» англійською «great tits», і, попри латинську назву виду, доданої для розуміння того, що твіт стосується птахів, будь-які спроби розблокувати обліковий запис були марними.[27]
  • Блокувалися листи жителів Пеністона в Південному Йоркширі, оскільки назва міста включає підрядок пеніс.[28]
  • Аналогічна проблема була в жителів міста Лайтвотер[en] (графство Суррей), оскільки його назва (англ. Lightwater) містить підрядок twat.
  • Резюме власників диплома з відзнакою magna cum laude за включення слова cum, що латиною означає з (у цьому словосполученні), але іноді використовується як сленгове слово сперма в англійській мові.[29]

Хибні заміни у текстах статей[ред. | ред. код]

  • У червні 2008 року на сайті новин Американської асоціації сімей[en] було розміщено статтю Associated Press про спринтера Тайсона Гея, у якій фільтр замінив усі випадки слова «гей» на «гомосексуал», таким чином, назвавши його ім'ям «Тайсон Гомосексуал».[30]
  • У грудні 2011 року повідомлялося, що в програмному забезпеченні Virgin Media до відфільтрованих слів потрапили «Арсенал» (через «arse») та «канал» (через «анал»).[31]
  • Англійське слово або рядок «ass» можуть автоматично заміняти на «butt» (яке вважається не таким грубим), в результаті чого трапляються випадки «clbuttic» замість «classic» та «buttbuttinate» замість «assassinate».[32]

Інше[ред. | ред. код]

  • У травні 2018 року вебсайт продуктового магазину Publix не дозволив замовити торт, що містить латинську фразу summa cum laude. Замовник намагався усунути проблему, включивши спеціальні вказівки, але зрештою отримав торт із написом «Summa --- Laude».[33][34]

Примітки[ред. | ред. код]

  1. Clive Feather (25 квітня 1996). AOL censors British town's name!. The Risks Digest.
  2. а б Declan McCullagh (23 квітня 2004). Google's chastity belt too tight. CNET. Архів оригіналу за 16 June 2011. Процитовано 2 вересня 2018.
  3. Matyszczyk, Chris. Google censors 'lolita' but not 'bestiality'. CNET News. CNET. Процитовано 1 вересня 2018.
  4. Jura. Google censors lolicon sites. Anime Gerad (English) . Архів оригіналу за 22 квітня 2010. Процитовано 1 вересня 2018.
  5. Paul Festa (27 квітня 1998). Food domain found "obscene". News.com.
  6. Foire aux questions. radio-canada.ca. Архів оригіналу за 21 October 2012. Процитовано 24 лютого 2011.
  7. Barker, Garry (26 лютого 2004). How Mr C0ckburn fought spam. Sydney Morning Herald. Архів оригіналу за 3 September 2009. Процитовано 24 лютого 2011.
  8. Cockburn, Craig (9 березня 2010). BBC fail – my correct name is not permitted. blog.siliconglen.com. Архів оригіналу за 16 липня 2011. Процитовано 24 лютого 2011.
  9. Is Yahoo Banning Allah?. Kallahar's Place. Архів оригіналу за 14 січня 2016. Процитовано 24 лютого 2011.
  10. When your name gets turned against you. Архів оригіналу за 5 August 2008. Процитовано 3 серпня 2008.
  11. The 'Scunthorpe Problem' Has Never Really Been Solved - Slashdot.
  12. Weiner, Natalie (28 серпня 2018). this is without a doubt the best thing that's ever happened to mepic.twitter.com/rnVkmhB2dy.
  13. Twitter / Account Suspended. twitter.com.
  14. «E-Rate And Filtering: A Review Of The Children's Internet Protection Act». Congressional Hearings. General. Energy and Commerce, Subcommittee on Telecommunications and the Internet. April 4, 2001.
  15. F-Word Town's Name Gets Censored By Internet Filter. Архів оригіналу за 1 December 2008. Процитовано 27 липня 2011.
  16. Chin, Josh (6 липня 2011). Following Jiang Death Rumors, China's Rivers Go Missing. The Wall Street Journal. Процитовано 7 липня 2011.
  17. Wine lovers cannot buy Burgundy tipple on Google as internet giant cracks down on 'gun' searches. Архів оригіналу за 2 March 2018. Процитовано 27 лютого 2018.
  18. BBC E-mail vetting blocks MPs' sex debate 4 February 2003
  19. BBC Software blocks MPs' Welsh e-mail 5 February 2003
  20. Kwintner, Adrian (5 жовтня 2004). Name of museum is confused with porn. News Shopper. Процитовано 24 лютого 2011.
  21. Comment headaches. The Peking Duck. 21 листопада 2004. Процитовано 24 лютого 2011.
  22. Sam Jones Panto email falls foul of filth filter The Guardian 14 October 2004
  23. BBC E-mail filter blocks 'erection' 30 May 2006
  24. The word 'cock' is banned on RSPB's website. Daily Mail. 13 листопада 2012. Процитовано 13 листопада 2012.
  25. Canada's The Beaver magazine renamed to end porn mix-up. Agence France-Presse. 12 січня 2010. Архів оригіналу за 5 March 2014. Процитовано 12 січня 2010.
  26. Sheerin, Jude (29 березня 2010). How spam filters dictated Canadian magazine's fate. BBC News. Процитовано 29 березня 2010.
  27. Luxemburger Twitter-Neubenutzer nach 29 Minuten blockiert. Washington Post. 22 червня 2010. Процитовано 12 червня 2010.
  28. Tom Chatfield (17 квітня 2013). The 10 best words the internet has given English. the Guardian. Процитовано 4 лютого 2018.
  29. Maher, Kris. Don't Let Spam Filters Snatch Your Resume. Career Journal. Архів оригіналу за 23 October 2006. Процитовано 11 лютого 2008.
  30. Frauenfelder, Mark (30 червня 2008). Homophobic news site changes athlete Tyson Gay to Tyson Homosexual. BoingBoing. Процитовано 22 грудня 2008.
  31. Gye, Hugo (20 грудня 2011). What the D***ens is going on? Over-zealous censors filter out favourite TV names (and don't even think of watching an Arsenal game. Daily Mail. Процитовано 20 грудня 2011.
  32. Moore, Matthew (2 вересня 2008). The Clbuttic Mistake: When obscenity filters go wrong. The Daily Telegraph. London. Процитовано 4 квітня 2010.
  33. Ferguson, Amber (22 травня 2018). Proud mom orders 'Summa Cum Laude' cake online. Publix censors it: Summa … Laude. Washington Post (амер.). ISSN 0190-8286. Процитовано 22 травня 2018.
  34. Amatulli, Jenna (22 травня 2018). Publix Censors Teen's 'Summa Cum Laude' Graduation Cake. Huffington post.

Посилання[ред. | ред. код]