Питально-відповідальна система

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Пита́льно-відповіда́льна систе́ма (англ. Question-answering system) — це особливий тип інформаційних систем, які є гібридом пошукових, довідкових та інтелектуальних систем (часто вони розглядаються як інтелектуальні пошукові системи). QA-система повинна бути здатна приймати питання природною мовою, тобто це система з природно-мовним інтерфейсом. Інформація надається на основі документів з мережі Інтернет або з локального сховища. Сучасні розробки QA-систем дозволяють обробляти множину варіантів запитів фактів, списків, дефініцій, питань типу Як, Чому, гіпотетичних, складних та міжмовних.

Класифікація[ред.ред. код]

  • Вузькоспеціалізовані QA-системи працюють у конкретних областях (наприклад, медицина або обслуговування автомобілів). Побудова таких систем - відносно легка задача.
  • Загальні QA-системи працюють з інформацією по всіх областях знань, таким чином з'являється можливість вести пошук у суміжних областях.

Архітектура[ред.ред. код]

Перші QA-системи були розроблені в 1960-х роках і є природно-мовними оболонками для експертних систем, які були орієнтовані на конкретні області. Сучасні системи призначаються для пошуку відповідей на запитання в представлених документах із використанням технології обробки природних мов (NLP).

Сучасні QA-системи, зазвичай, включають особливий модуль - класифікатор запитань, який визначає тип запитання і, відповідно, очікуваної відповіді. Після цього аналізу система поступово застосовує до представлених документів все більш складні і тонкі методи NLP, відкидаючи непотрібну інформацію. Найгрубіший метод - пошук в документах - передбачає використання системи пошуку інформації для відбору частин тексту, які потенційно можуть містити відповідь. Потім фільтр виділяє фрази, схожі на очікувану відповідь (наприклад, на запитання «Хто ...» фільтр поверне кусочок тексту, який містить імена людей). І, нарешті, модуль виділення відповідей знайде серед цих фраз правильну відповідь.

Схема роботи[ред.ред. код]

Продуктивність питально-відповідальної системи залежить від ефективності використовуваних методів аналізу текстів і від якості текстової бази - якщо в ній немає відповіді на запитання, QA-система мало що зможе знайти. Чим більша база - тим краще, але тільки якщо вона містить необхідну інформацію. Великі сховища (такі як Інтернет) містять багато зайвої інформації[1]. Це веде до наступних моментів:

  1. Так як інформація представлена в різних формах, то вища повнота інформації. QA-система із більшою ймовірністю знайде відповідь.
  2. Правильна інформація частіше повторюється, тому помилки пошуку відповідей можна мінімізувати.
  3. Точність пошуку інформації суттєво залежить від достовірності інформації в сховищах, а також від ефективності методів аналізу інформації і формування відповідей.

Проблеми[ред.ред. код]

В 2002 році група дослідників написала план досліджень в області питально-відповідальної системи[2]. Пропонувалося розглянути наступні запитання:

Типи питань
Різні питання вимагають різних методів пошуку відповідей. Тому потрібно скласти або поліпшити методичні списки типів можливих питань.
Обробка питань
Одну й ту ж інформацію можна запросити різними способами. Потрібно створити ефективні методи розуміння і обробки семантики (сенсу) пропозиції. Важливо, щоб програма розпізнавала еквівалентні за змістом питання, незалежно від використовуваних стилю, слів, синтаксичних взаємозв'язків та ідіом. Хотілося б, щоб QA-система розділяла складні питання на кілька простих, і правильно трактувала контекстно-залежні фрази, можливо, уточнюючи їх у користувача в процесі діалогу.
Контекстні питання
Питання задаються в певному контексті. Контекст може уточнити запит, усунути двозначність або стежити за ходом думок користувача по серії запитань.
Джерела знань для QA-системи
Перед тим як відповісти на запитання, непогано було б довідатися про доступні бази текстів. Які б способи обробки текстів не застосовувалися, ми не знайдемо правильної відповіді, якщо його немає в базах.
Виділення відповідей
Правильне виконання цієї процедури залежить від складності питання, його типу, контексту, якості доступних текстів, методу пошуку та ін. Тому підходити до вивчення методів обробки тексту потрібно з усією обережністю, і ця проблема заслуговує особливої ​​уваги.
Формулювання відповіді
Відповідь має бути якомога більш природною. У деяких випадках достатньо і простого виділення її з тексту. Наприклад, якщо потрібно найменування (ім'я людини, назву приладу, хвороби), величину (грошовий курс, довжина, розмір) або дату («Коли народився Іван Грозний?») - прямої відповіді достатньо. Але іноді доводиться мати справу зі складними запитами, і тут потрібні особливі алгоритми злиття відповідей з різних документів.
Відповіді на питання в реальному часі
Потрібно зробити систему, яка б знаходила відповіді в сховищах за кілька секунд, незалежно від складності і двозначності питання, розміру і просторості документної бази.
Багатомовні запити
Розробка систем для роботи і пошуку на інших мовах (у тому числі автоматичний переклад).
Інтерактивність
Найчастіше інформація, пропонована QA-системою як відповідь, неповна. Можливо, система неправильно визначила тип питання або неправильно «зрозуміла» його. У цьому випадку користувач може захотіти не тільки переформулювати свій запит, а й «порозумітися» з програмою за допомогою діалогу.
Механізм міркувань (виводу)
Деякі користувачі хотіли б отримати відповідь, що виходить за рамки доступних текстів. Для цього в QA-систему потрібно додати знання, загальні для більшості областей (див. Загальні онтології в інформатиці), а також засоби автоматичного виведення нових знань.
Профілі користувачів QA-систем
Відомості про користувача, такі як область інтересів, манера його мови і міркування, припускаються за замовчуванням факти, могли б істотно збільшити продуктивність системи.

Напрямки розвитку питально-відповідальних систем[ред.ред. код]

З моменту появи перших прототипів питально-відповідних систем їх область застосування значно розширилася[3]. Наприклад, їх використовують у відповідях на питання, пов'язані з часом, геолокаційні питання, питання визначення понять, бібліографічні, багатомовні питання, питання, пов'язані з мультимедіа (візуальної, аудіо- та відео- інформацією). Вивчаються суміжні області, такі як побудова інтерактивних QA-систем (уточнювальні питання, що вимагаються для роз'яснення первісного), повторне використання відповідей і уявлення знань, використання логічного висновку з наявної інформації для отримання відповідей на питання і т.п., прогнозування, які питання можуть бути задані, аналіз настрою.

Джерела інформації[ред.ред. код]

  1. Lin, J. (2002). The Web as a Resource for Question Answering: Perspectives and Challenges. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
  2. Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, C-Y., Maiorano, S., Miller, G., Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA).
  3. Maybury, M. T. editor. 2004. New Directions in Question Answering. AAAI/MIT Press.