Перейти до вмісту

Шумові слова

Матеріал з Вікіпедії — вільної енциклопедії.

Стоп-слова або шумові слова — термін з теорії пошуку інформації за ключовими словами. Це слова, які не несуть смислового навантаження, тому їх користь та роль для пошуку не суттєва.

Класифікація

[ред. | ред. код]

Стоп-слова діляться на:

  • загальні
  • залежні

До загальних можна віднести прийменники, суфікси, дієприкметники, вигуки, цифри тощо. Загальні шумові слова завжди виключаються з пошукового запиту (за винятком пошуку за строгою відповідністю пошукової фрази), так само вони ігноруються при побудові інвертованого індексу. Вважається, що кожне з загальних стоп-слів є майже в усіх документах колекції.

До типових загальних шумових слів належать:

  • цифри: 1, 2, 3, 4, 5, 6, 7, 8, 9, 0 (один, два, три, чотири, п'ять, шість, сім, вісім, дев'ять, нуль).
  • окремо розташовані знаки пунктуації: . , = + /! "; :%? * ()
  • окремо розташовані букви алфавіту: а, б, в, г, ґ, д, е, є, ж, з, и, і, ї, й, к, л, м, н, о, п, р, с, т, у, ф, х, ц, ч, ш, щ, ь, ю,я
  • займенники, дієприкметники, прийменники, вигуки, суфікси і поєднання букв: без, більш, б, був, була, були, було, бути (окрім фразеологічних зворотів, таких як «бути чи не бути»), вам, вас, адже, весь, вздовж, замість, поза, вниз, внизу, всередині, під, навколо, от, все, завжди, все, всіх, ви, де, да, давай, давати, навіть, для, до i т. д.
  • слова, які часто зустрічаються на web-сайтах: Інтернет, сайт, питання, відповіді, комп'ютери, прайс, замовлення та інші.
  • нецензурна мова

Залежні стоп-слова залежать від пошукової фрази. Ідея полягає в тому, щоб по-різному враховувати відсутність звичайних слів із запиту і залежних стоп-слів із запиту в знайденому документі. Залежні стоп-слова відрізняються тим, що в пошуковому запиті їх слід враховувати тільки при наявності в шуканому документі значущих ключових слів.

Приклади

[ред. | ред. код]

Наприклад, при пошуку за запитом Іван Петрович Котляревський, є сенс відобразити всі документи, які містять:

  • Котляревський, Іван, Петрович
  • Котляревський, Іван
  • Котляревський, Петрович
  • Котляревський

Але навряд чи є сенс відображати документи, що містять тільки:

  • Іван, Петрович
  • Іван
  • Петрович

Тобто в даному запиті шумовими словами є Іван і Петрович.

Див. також

[ред. | ред. код]

Література

[ред. | ред. код]
  • Гращенко Л. А. Про модельний стоп-словник // Ізвестія Академії наук Республіки Таджикистан. Відділення фізико-математичних, хімічних, геологічних та технічних наук — 2013. — № 1 (150). — С. 40-46.

Посилання

[ред. | ред. код]