Лінгвістичний процесор

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Лінгвістичний процесор — це автоматизована система обробки текстової або мовної інформації, до складу якої входять: система машинного перекладу, автоматизовані інформаційні системи, автоматичні словники, автоматизовані системи компресії, корекції, аналізу і синтезу текстів або мови.[1]

Лінгвістичні процесори є моделями опису підсистем мови або їхніх фрагментів і конструюються на основі інтеграції відібраних лінгвістичних даних, важливих для адекватного відображення модельованого об’єкта.

Функції[ред. | ред. код]

Дві основні функції лінгвістичного процесора полягають у вилученні змісту із заданої текстової інформації та вираженні отриманого змісту мовою логіки предикатів для можливості подальшого порівняння сформованих моделей. Зміст висловлювання — це вся семантико-прагматична інформація, яку користувач передає на вхід системи. Внутрішнє представлення змісту містить сутності проблемної області (слова), що потрапляють до системи з даним висловлюванням, властивості та відношення, що відповідають цим сутностям.[2]

Рівні та структура[ред. | ред. код]

Лінгвістичний процесор – це по суті багаторівневий перетворювач, що містить три рівні представлення тексту: морфологічний, синтаксичний та семантичний.[2]

Морфологічний рівень[ред. | ред. код]

Метою морфологічного аналізу є визначення для одиниць тексту інформації про їхнє місце у морфологічній системі відповідної для використання цієї інформації на наступних етапах обробки тексту. Морфологічний аналіз присутній на всіх етапах аналізу тексту, тому що ані морфемний, ані синтаксичний, ані семантичний аналіз не можуть обійтися без визначення частин мови.

Існує три основних методи реалізації морфологічного аналізу.

1) Декларативний — в словнику зберігаються всі можливі словоформи кожного слова з прописаною для них морфологічною інформацією. У цьому випадку задача морфологічного аналізу полягає у пошуку словоформи в словнику та прописування їй відповідних характеристик, тому в цьому методі відсутній сам морфологічний аналіз, а зберігається тільки його результат. Декларативний метод доцільно застосовувати при частому зверненні до лінгвістичного процесора.

2) Процедурний — виділяє в кожній конкретній словоформі основу, ідентифікує її та приписує даній основу відповідну для неї морфологічну інформацію.

3) Комбінований — використовує як словник словоформ, так і словник основ. На першому етапі відбувається пошук по словнику словоформ, як при декларативному методі, і у випадку успішного пошуку аналіз на цьому завершується. Інакше використовується словник основ і процедурний метод аналізу.

Синтаксичний рівень[ред. | ред. код]

Синтаксичний аналіз визначає, чи належить деякий текст мові, що породжується граматикою. Під час синтаксичного аналізу встановлюються синтаксичні зв'язки між текстовими одиницями.

Синтаксичний розбір речення відбувається шляхом набору послідовних перетворень:

  • пошук граматичних ідіом;
  • лексико-граматичний аналіз речення з усуненням неоднозначності у визначенні частин мови;
  • знаходження іменної групи об’єкта і суб’єкта;
  • знаходження дієслівної групи;
  • виділення головних та залежних речень.[2]

Семантичний рівень[ред. | ред. код]

Семантичний аналіз тексту базується на результатах синтаксичного аналізу, отримуючи на вході уже не набір слів, розбитих на речення, а набір дерев, що відображають синтаксичну структуру кожного речення. На цей час методи синтаксичного аналізу не дають бажаних результатів, тому знання і розуміння семантики мови дозволить удосконалити синтаксичний опис мови. Загальною базою методів семантичного аналізу, яка дозволяє виявити семантичні відношення між словами, є тезаурус мови. На математичному рівні він являє собою орієнтований граф, вузлами якого є слова в їх основній словоформі, а дуги задають відношення між словами і можуть відображати ряд ознак. Таким чином тезаурус задає набір бінарних відношень на множині слів природної мови.[2]

Примітки[ред. | ред. код]

  1. Лінгвістичний процесор. Словопедія.
  2. а б в г Вавіленкова, А.І. (2011). Структура лінгвістичного процесору системи порівняльного аналізу текстів за змістом.