Пошуковий спам

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Пошуковий спам (англ. Spamdexing)[1] — сайти і сторінки в Інтернеті, створені з метою маніпуляцій результатами пошуку в пошукових системах — у остаточному підсумку, для обману користувача. Маніпуляції охоплюють різні методи, такі як повторення нав'язаної фрази, маніпулювання актуальністю або популярністю ресурсів індексованих несумісним чином з метою системи індексації.[2][3] Це може розглядатися як частина оптимізації пошукової системи, хоча існує багато методів пошукової оптимізації, які покращують якість і зовнішній вигляд вмісту вебсайтів і служать із користю для багатьох користувачів[4]. Пошукові системи використовують різні алгоритми для визначення релевантності ранжування. Деякі з них містять визначення, чи з'являється термін пошуку в тексті або URL про наявність вебсторінки.

Багато пошукових систем перевіряють на наявність пошукового спаму та видаляють підозрілі сторінки зі своїх індексів. Крім того, люди, що працюють в організації пошукової системи можуть швидко заблокувати конкретні результати цілих вебсайтів компанії, які використовують спамдексінг, якщо про них повідомлять користувачі, які стали жертвами помилкових збігів. Зростання спамдексінгу в середині 1990-х років зробили провідні пошукові системи того часу менш корисними. Використання нечесних методів, щоб отримати більш високий рейтинг сайту для пошукових систем, ніж вони мали б насправді, зазвичай називають «Black Hat SEO», в галузі SEO (Оптимізація пошукової системи). Ці методи в більшій мірі зосереджені на порушеннях правил просування вебсайтів у пошукових системах.

Історія[ред. | ред. код]

Першим, хто вжив термін[2] Пошуковий спам, був Ерік Конвей, який в своїй статті «Porn sneaks way back on Web» (Порно пробирається назад до Вебу, The Boston Herald[en], 22 травня 1996 року), сказав:

Проблема виникає тоді, коли оператори сайту завантажують свої вебсторінки з сотнями сторонніх термінів так, що пошукові системи будуть приймати їх як доречні адреси. Цей процес називається «спамдексінг» — поєднання розсилки спаму і індексації.

У той час як пошуковий спам втрутився в процес пошуку інформації в Інтернеті, було вжито багато заходів, щоб його приборкати. Вебспам був великою проблемою в 1990-х роках, і пошукові системи були безпорадні у боротьбі з пошуковим спамом. Але після появи Google все змінилося — Google розробила систему рейтингу сторінок, яка боролася проти спамдексінгу досить добре, блокуючи сайти зі спамом і підвищуючи рейтинг справжніх, релевантних вебсайтів.

Основні види пошукового спаму[ред. | ред. код]

Методи вебспаму можуть бути розділені на два класи: спам змісту[4] і спам посилання[3].

Спам змісту[ред. | ред. код]

Ці методи включають заміну логічного уявлення про те, як пошукова система сприймає вміст сторінки. Всі вони спрямовані на варіанти векторної моделі для пошуку інформації текстових колекцій.

Наповнення ключовими словами[ред. | ред. код]

Наповнення ключовими словами охоплює розміщення ключових слів в межах сторінки, щоб підняти кількість збігу ключових слів, різноманітність і щільність сторінки. Це корисно, щоб зробити сторінку, яка видається актуальною для пошукового робота таким чином, що підвищує її ймовірність бути знайденою. Приклад: промоутер схеми Понзі хоче залучити вебсерферів на сайт, де він рекламує свою аферу. Він поміщає прихований текст, яких підходить для фан-сторінки популярної музичної групи на своїй сторінці, в надії, що сторінка буде відображатися як фан-сайт і отримає багато відвідувань від любителів музики. Більш старі версії програм індексації просто підраховували як часто з'явилося ключове слово, і використовували його для визначення рівня значущості. Більшість сучасних пошукових систем мають можливість аналізувати сторінки на ключові слова і визначити, чи створені ці сайти, спеціально для залучення трафіку з пошукових систем, або ні. Крім того, великі вебсторінки обрізаються, так що списки масивних словників не можуть бути проіндексовані на одній вебсторінці.

Чорне розкручування[ред. | ред. код]

До чорного розкручування сайту відносять слова, що не мають відношення до вмісту сторінки, але популярні в пошукових запитах в мета-тегах або в описі сторінки, наприклад «sex», «халява». Цей вид спаму з'явився, коли вебдизайн тільки зароджувався. У результаті пошукові машини стали аналізувати не тільки спеціальні теги, але й сам текст сайту.

Чорне розкручування також використовує «невидимий текст» (текст, невидимий для відвідувача сторінки), але він індексований пошуковою машиною. Застосовується колір тексту, відповідний до кольору тла, текст розміром в 1 піксель, блоки тексту, зі стилем «display: none». Посилальний спам — посилання, що «накручують» популярність сайту. Через те, що пошукові системи, відповідаючи на запит, орієнтуються на кількість посилань, наявних на інших сайтах на даний ресурс, з'явилася ідея якось збільшити число таких посилань:

  • Створити невеликі сайти на безкоштовному хостингу, зареєструвати їх у великій кількості тематичних каталогів і з них посилатися на основний.
  • Взяти участь в обміні посиланнями.
  • Здобувати посилання за гроші.
  • Посилальний спам з гостьових книг, блогів, вікі та ін.

Пошукові машини борються із цим, створюючи фільтри, у які додають сайти, посилання з яких не враховуються при ранжируванні.

Прихований або невидимий текст[ред. | ред. код]

Прихований текст, що замаскований в той же самий колір як і фон, або який використовує крихітний розмір шрифту, чи можливо прихований в HTML-коді. Люди, які працюють на компанії, які займаються розробкою пошукових систем, можуть сфотографувати вебсайт та тимчасово або назавжди заблокувати весь сайт за те, що у ньому є невидимий текст на деяких його сторінках. Тим не менше, прихований текст не завжди є вебспамом: він також може бути використаний для підвищення доступності.

Наповнення мета-тегів[ред. | ред. код]

Текст містить повторювані ключові слова в мета-тегах, а також мета ключових слів, які не мають ніякого відношення до змісту сайту. Ця тактика не є неефективною з 2005 року.

Дорвеї[ред. | ред. код]

Дорвеї — проміжні сторінки, створені для накрутки[що це?] ваги сторінки при посилальнім[що це?] ранжируванні або для організації пошукової бомби. Відповідно до технології дорвеїв у пошуковому індексі треба просувати спеціальну сторінку дорвей. А вже із цієї сторінки перенаправляти на рекламну. В однієї рекламної сторінки може бути необмежена кількість дорвеїв. Пошукові машини у відповідь видаляють зі своєї бази даних сайти, у яких є автоматичне перенаправлення. На що спамери відповідають простим вивертом: просять відвідувача самого натиснути на кнопку «Вхід на сайт» або щось подібне.

«Шлюзи» або дорвеї є неякісні вебсторінки, в яких дуже мало вмісту, але замість цього вони фаршировані дуже схожими ключовими словами і фразами. Вони призначені для того, щоб сторінки ставали вище в результатах пошуку, але не мають ніякої мети для відвідувачів, які шукають інформацію. Сторінка-дорвей, як правило, має кнопку «натисніть тут, щоб увійти». У 2006 році Google заблокували сайт BMW.de німецької компанії BMW за використання «дорвеїв».[5]

Сайти-скрапери[ред. | ред. код]

Сайти-скрапери створюються з використанням різних програм, спрямованих на зіскрібання результатів сторінок пошукових систем або інших джерел контенту і створювання «змісту» для вебсайту. Контент на цих сайтах є унікальним, але це просто комбінування змісту взятого з інших джерел, часто без дозволу. Такі сайти, як правило, наповнені рекламою (наприклад, які оплачуються за кожен клік), або вони перенаправляють користувача на інші сайти. Бувають випадки, коли сайти-скрапери перевершують оригінальні вебсайти за показниками популярності.

Перенаписання статей[ред. | ред. код]

Перенаписання статей включає перезапис наявних статей, а не просто вишкрібання контенту з інших сайтів, щоб уникнути штрафних санкцій, введених пошуковими системами за дублювання контенту. Цей процес здійснюється найманими письменниками, автоматизований з використанням бази даних тезауруса або нейронної мережі.

Машинний переклад[ред. | ред. код]

Аналогічно перенаписанню статей, деякі сайти використовують машинний переклад, щоб зробити їх зміст декількома мовами, без людського редагування, що виливається у незрозумілі тексти.

Спам-посилання[ред. | ред. код]

Спам-посилання — це посилання між сторінками, що мають цілі, відмінні від благородних.[6] Спам-посилання користується перевагою алгоритмів ранжирування, побудованих на основі посилань, що дає вебсайтам вищий рейтинг, тим більше високо ранжованих сайтів посилаються на нього. Ці методи також спрямовані на інші алгоритми на основі ранжування, таких як алгоритм HITS. Є багато різних типів спам-посилань, побудованих для позитивних і негативних ефектів ранжування вебсайтів.[7]

Програмне забезпечення, що будує посилання[ред. | ред. код]

Поширеною формою спам-посилань, що користується потенціалом програмного забезпечення для процесу автоматизації, оптимізації пошукової системи.

Ферми посилань[ред. | ред. код]

Ферми посилань — це тісно згуртованої громади сторінок, що посилаються одна на одну, також відомі жартома, як товариства із взаємною симпатією.[8] Використання ферм значно скоротилося після того, як Google запустив Panda Update ще в лютому 2011 року, що зробило значні поліпшення в алгоритмах, які допомагали виявити ферми посилань, призначені для того, щоб грати з рейтингом.

Приховані посилання[ред. | ред. код]

Це введення гіперпосилань, коли відвідувачі не бачитимуть їх, для того, щоб збільшити популярність посилань. Виділений текст посилання може допомогти ранжирувати веб — сторінки для більш високої відповідності цієї фрази.

Атака Сибіла[ред. | ред. код]

Атака Сибіла — це виготовлення множинних індивідуальностей для злого умислу, назване на честь відомого пацієнта «Сібіла», який мав синдром множинного розладу особистості. Спамер може створити кілька вебсайтів на різних доменних іменах, які всі пов'язані один з одним, такі як підроблені блоги (відомі як спам-блоги).

Спам-блоги[ред. | ред. код]

Спам-блоги — це блоги, створені виключно для комерційного просування і передачі володіння над посиланням сайтам-мішеням. Часто ці блоги сконструйовані таким чином, що вони вводять в оману, що дає ефект законного веб -сайту, але при більш детальному розгляді стає зрозуміло, що вони написані за допомогою прядильного програмного забезпечення. Вони схожі за своєю природою, на ферми посилань.

Спам-блог із гостем[ред. | ред. код]

Спам-блог із гостем — це процес розміщення гостьових блогів на вебсайтах з єдиною метою отримання посилання на інший вебсайт або вебсайти. Часто цей процес плутають із законними формами ведення блогу з іншими мотивами, ніж розміщення посилань. Метт Каттс зробив цей метод відомим, коли публічно оголосив «війну» проти цього методу посилального спаму.[9]

Дублювання сторінки[ред. | ред. код]

Дублювання сторінки досягається за рахунок створення копії популярного веб — сайту, який показує вміст схожий на оригінал для роботів, але перенаправляє вебсерферів до шкідливих вебсайтів.

Купівля доменів з вичерпаним терміном дії[ред. | ред. код]

Деякі спамери використовують програмне забезпечення з вичерпаним терміном дії домену або шукають DNS домени, термін дії яких закінчуються найближчим часом, а потім купляють їх, коли він закінчується і заміняють сторінки з посиланнями на їх сторінки. Тим не менше, це можливо, але неможливо підтвердити, що Google скидає дані про посилання на доменах з вичерпаним терміном придатності. Для того, щоб зберегти всі попередні дані рейтингу Google для домену, бажано, щоб покупець захопив домен, перш ніж він «впав». Деякі з цих методів можуть бути застосовані для створення пошукової бомби — тобто, співпрацювати з іншими користувачами, щоб підвищити рейтинг конкретної сторінки для конкретного запиту.

Наповнення Cookie[ред. | ред. код]

Наповнення Cookie містить розміщення партнерської Cookie на комп'ютері користувача сайту без його відома, які будуть генерувати дохід для людини, який займається наповненням Cookie. Це не тільки генерує шахрайські продажі партнерської, а й має потенціал перезаписувати файли-cookie інших афілійованих осіб, що є по суті крадіжкою їх законно зароблених cookie-файлів.

Використання форумів[ред. | ред. код]

Вебсайти, які можуть бути змінені користувачами, можуть бути використані спамерами для вставки посилання на спам-сайти, якщо відповідні антиспамові заходи не будуть прийняті.

Автоматизовані спамботи можуть швидко зробити частину сайту, яка може бути відредагована користувачем, непридатною для використання. Програмісти розробили безліч автоматизованих методів захисту від спаму, щоб блокувати або, принаймні, уповільнити спам-ботів.

Спам в блогах[ред. | ред. код]

Спам в блогах — це розміщення або прохання розмістити посилання на інших сайтах, які розміщують бажане ключове слово в текст гіперпосилання. Гостьові книги, форуми, блоги і будь-який сайт, який приймає відгуки відвідувачів, мають зазвичай цілі таких методів і часто стають жертвами автоматизовано створеного спаму, коли програмне забезпечення створює повідомлення з безглуздими посиланнями, які, як правило, не мають цінності або небажані.

Спам у коментарі[ред. | ред. код]

Спам у коментарі — це форма посилального спаму, яка з'являється на вебсторінках, які дозволяють користувачам динамічне редагування, такі як вікі, блоги і гостьові книги.

Вікі-спам[ред. | ред. код]

Вікі-спам — це одна з форм посилального спаму на вікі-сторінках. Спамер використовує відкриті для редагування вікі-системи із ціллю розміщувати посилання з вікі сайту на спам-сайт. Предмет спам-сайту і вікі-сторінки, де додається посилання, часто не пов'язані один з одним.

Спам журналу посилань[ред. | ред. код]

Спам журналу посилань відбувається тоді, коли спам-порушник або посередник отримує доступ до вебсторінки (далі арбітр), через посилання з іншої вебсторінки (реферер), так що арбітр отримує адресу за допомогою браузеру. Деякі сайти мають журнал посилань, який показує сторінки, що посилаються на цей сайт. Якщо робот випадковим чином отримує доступ до багатьох сайтів достатню кількість разів, з повідомленням або конкретною адресою, вказаною як реферер, з'явиться в журналі посилань тих сайтів, які мають журнали реферера. Оскільки деякі пошукові системи засновують ранжирування на основі кількістю сайтів, які посилаються на інші сайти, це може підвищити рейтинг спам-сайту у пошуковій системі. Крім того, адміністратори сайту, які помічають записи у журналі, можуть перейти за посиланням на сторінку назад до спамера.

Інші типи пошукового спаму[ред. | ред. код]

Дзеркальні сайти[ред. | ред. код]

Дзеркальні сайти — це хостинг декількох вебсайтів з концептуально аналогічним змістом, але з використанням різних URL-адрес. Деякі пошукові системи дають більш високий ранг результатам, де ключове слово для пошуку з'являється в URL.

URL перенаправлення[ред. | ред. код]

URL перенаправлення — це переведення користувача на іншу сторінку без його втручання, наприклад, з допомогою мета оновлення тегів, флеш, JavaScript, Java або перенаправлення на стороні сервера. Тим не менше, 301 Redirect, або постійне перенаправлення, не розглядається як злоякісна поведінка.

Маскування, або клоакінг, — аналіз змінних запиту, при якому пошуковій машині віддається вміст сайту, відмінний від того, який бачить користувач.

Контрзаходи[ред. | ред. код]

Через велику кількість спаму, розміщену на вебсторінках, які можуть бути редаговані користувачем, Google запропонував NoFollow тег, який може бути вбудований в посилання. Посилання на основі пошукової системи, такі як Google, PageRank системи, не використовуватиме посилання, щоб збільшити рахунок пов'язаного сайту, якщо посилання несе NoFollow тег. Це гарантує, що спам посилання на вебсайти не підніматиме рейтинг сайтів в пошукових системах. Nofollow використовується декількома великими вебсайтами, у тому числі WordPress, Blogger і Wikipedia.

Див. також[ред. | ред. код]

Посилання[ред. | ред. код]

Сторінки допомоги пошукових систем для вебмайстрів[ред. | ред. код]

Інші інструменти та інформація для вебмайстрів[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Danny Sullivan (October 2008). Video explanation of Search Engine Spam. SearchEngineLand.com (англ.). Архів оригіналу за 17 грудня 2008. Процитовано 13 листопада 2008. 
  2. а б «Word Spy — spamdexing» (definition), March 2003, webpage: WordSpy-spamdexing [Архівовано 2014-07-18 у Wayback Machine.].
  3. а б Gyöngyi, Zoltán; Garcia-Molina, Hector (2005). Web spam taxonomy. Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2005 in The 14th International World Wide Web Conference (WWW 2005) May 10, (Tue)-14 (Sat), 2005, Nippon Convention Center (Makuhari Messe), Chiba, Japan. New York, NY: ACM Press. ISBN 1-59593-046-9. 
  4. а б Ntoulas, Alexandros; Manasse, Mark; Najork, Marc; Fetterly, Dennis (2006). Detecting Spam Web Pages through Content Analysis. The 15th International World Wide Web Conference (WWW 2006) May 23–26, 2006, Edinburgh, Scotland. New York, NY: ACM Press. ISBN 1-59593-323-9. 
  5. Segal, David (13 лютого 2011). The Dirty Little Secrets of Search. The NY Times. Процитовано 3 липня 2012. 
  6. Davison, Brian (2000). Recognizing Nepotistic Links on the Web. AAAI-2000 workshop on Artificial Intelligence for Web Search. Boston: AAAI Press. с. 23–28. 
  7. Link spam types guide — Spam Flag
  8. Search Engines: Technology, Society, and Business — Marti Hearst, Aug 29, 2005. Архів оригіналу за 8 липня 2007. Процитовано 29 травня 2016. 
  9. The decay and fall of guest blogging for SEO — Matt Cutts, Jan 20, 2014