Повнотекстовий пошук

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

При пошуці документів[en], повнотекстовий пошук відноситься до методів пошуку окремого документа або колекції в повнотекстовій базі даних[en]. Повнотекстовий пошук відрізняється від пошуку на основі метаданих або по окремим частинам оригінального тексту, які представлені в базах даних (таких як заголовки, анотації, окремі розділи, або бібліографія).

У повнотекстовому пошуці, пошуковик аналізує всі слова в кожному збереженому документі, та намагається відповідати критеріям пошуку (наприклад, тексту визначеному користувачем). Методи повнотекстового пошуку стали поширеним в онлайн бібліографічних базах даних в 1990-х роках.[перевірити] Багато веб-сайтів і додатків (таких як текстові процесори) забезпечують можливості повнотекстового пошуку. Деякі веб-пошукових систем, таких як AltaVista, використовують методи повнотекстового пошуку, в той час як інші індексують тільки частини веб-сторінок, перевіряються їх системами індексації.[1]

Індексація[ред. | ред. код]

При роботі з невеликою кількістю документів, цілком можливо, при повнотекстовому пошуку перевірити вміст всіх документів для кожного запиту. Така стратегія називається «послідовним скануванням[en]». Це приклад того, що роблять деякі інструменти, такі як команда grep, при пошуку.

Однак, коли кількість документів для пошуку потенційно велика, або кількість пошукових запитів для виконання є істотною, проблему повнотекстового пошуку часто розділяють на дві задачі: індексування і пошук. На етапі індексації відбувається сканування тексту усіх документів і складається список пошукових термінів (він часто називається показником, але більш правильно називати узгодженням). На етапі пошуку, при виконанні певного запиту, використовуєть тільки індекс, а не текст оригіналу.[2]

Індексатор робить запис в індексі для кожного терміна або слова в документі, і, можливо, занотовує його відносне положення в документі. Зазвичай індексатор буде ігнорувати стоп-слова (такі як «або» та «і»), які є загальними і недостатньо значущіми, щоб бути корисними при пошуку. Деякі індексатори також використовують мовні скорочення слів, які індексуються. Наприклад, слова «копав», «копала», і «копали» будуть занесені в індекс під єдиною концепцією слова «копати».

Посилання[ред. | ред. код]

  1. In practice, it may be difficult to determine how a given search engine works. The search algorithms actually employed by web-search services are seldom fully disclosed out of fear that web entrepreneurs will use search engine optimization techniques to improve their prominence in retrieval lists.
  2. Capabilities of Full Text Search System