Корпусна лінгвістика

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Мовознавство
Мови світу
Загальне мовознавство (також Теоретична лінгвістика)
Фонетика
Фонологія
Граматика
Морфологія
Синтаксис
Лексикологія
Семантика
Лексична семантика
Статистична семантика
Структурна семантика
Прототипна семантика
Прагматика
Прикладна лінгвістика
Засвоєння мови
Психолінгвістика
Соціолінгвістика
Антропологічна лінгвістика
Генеративна лінгвістика
Когнітивна лінгвістика
Математична (комп'ютерна) лінгвістика
Дескриптивна (синхронічна) лінгвістика
Стилістика
Приписова лінгвістика
Корпусна лінгвістика
Перекладознавство
Історична лінгвістика
Порівняльна лінгвістика
Етимологія
Історія лінгвістики
Список лінгвістів
Невирішені проблеми

Корпусна лінгвістика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.

Рішення задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — до корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.

За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених галузях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку — лінгвістичний аналіз тексту і інформаційний аналіз тексту.

Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, «бачить» текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення.

Корпуси[ред.ред. код]

В даний час в науковому словнику лінгвістів з'являються дуже близькі поняття: «електронні бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повнотекстова база даних». Серед них можна виділити лінгвістичні корпуси, або мовні корпуси. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.

Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.

Цінність корпусу вбачається в наступному:

  • одного разу зроблений корпус може багато разів використовуватися;
  • корпус показує мовні дані в їх реальному оточенні, що дозволяє досліджувати лексичну і граматичну структуру мови, а також безперервні процеси мовних змін, що відбуваються в мові впродовж певного відрізка часу;
  • корпус характеризується показністю, або збалансованим складом текстів, що дозволяє використовувати його для тестування пошукових машин, машинних морфологій, систем перекладу, а також використовувати його в різних лінгвістичних дослідженнях;
  • корпус має важливе значення для викладання мови, оскільки за допомогою корпусу можна швидко і ефективно перевірити особливості вживання незнайомого слова або граматичної форми.

Робота з корпусами, тобто з масивами текстів, представленими в електронному вигляді, давно вже стала одним з основних методів лінгвістичних досліджень. Так, ще в 1960-і роки створювався Брауновський корпус (США) [1], який включає 1 млн слів; у 1970-і : LOB корпус (Великобританія, Норвегія), який також включає 1 млн слів. У 1980-і роки почали створюватися такі корпуси, як: Машинний Фонд російської мови, Уппсальській корпус російської мови (Швеція), 1 млн слів, The Bank of English, Birmingham, 20 млн слів. У 1990-і створений British National Corpus [2], який включає 100 млн слів, а також інші національні корпуси (угорський, італійський, хорватський, чеський, японський) обсягом 100 млн слів. В цей же час створювався The Bank of English, Birmingham, що включає 600 млн слів. На початку XXI ст. створювалися такі корпуси, як American National Corpus [3], 100 млн слів і Gigaword corpora (англійський, арабський, китайський), що включає 1 млрд слів. Особливу увагу слід звернути на російський національний корпус, над яким працюють лінгвісти Москви і Санкт-Петербурга.

Існування корпусів текстів дає можливість значно розширити і автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.

Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.

Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.

Існують різні типи розмітки:

  • метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;
  • структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, пропозиції, тексту;
  • лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (негативна пропозиція або питальне, управління або примикання і т. д.).

Як відомо, чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна цінність корпусу.

Конкорданси[ред.ред. код]

Докладніше у статті Конкорданс

Простір електронних текстових корпусів дав можливість результативного використання електронних конкордансів, які відкривають перспективи моделювання мовної картини світу. Конкорданс є спеціалізованою лінгвістичною прикладною програмою, за допомогою якої здійснюється автоматична вибірка заданих мовних одиниць з електронних текстів. Функцію конкордансу можна порівняти з функцією пошуку в текстовому редакторові, проте можливості конкордансу ширші — він аналізує не один, а відразу декілька текстів або корпусів електронних текстів, при цьому конкорданс виводить на екран інформацію про контекст використання заданих мовних одиниць. Залежно від технічних можливостей конкорданс може надавати інформацію про частотність вживання і сполучуваності тієї або іншої мовної одиниці, а також дає можливість звертатися до конкретного тексту, в якому був знайдений приклад. Існує електронний конкорданс повних творів Григорія Сковороди на сайті Албертського університету в Канаді (http:// www.arts.ualberta.ca/~ukr/skovoroda/NEW/index.php), а також Он-лайн конкорданс роману Івана Франка “Перехресні стежки” (автори: Бук С., Ровенчак А.) на сторінці Львівського університету (http://www.ktf.franko.lviv.ua/~andrij/science/Franko/concordance.html)

Комп'ютерна лексикографія[ред.ред. код]

Безумовно, корпусна лінгвістика яскраво і чітко репрезентує себе в одному з перспективних напрямів — комп'ютерної лексикографії. Електронні словники і енциклопедії розробляються сьогодні як автономні і мережеві програмні продукти. Не викликає сумніву той факт, що електронні словники надають користувачеві безліч додаткових можливостей в порівнянні з друкарськими аналогами:

  • дозволяють зберігати великий обсяг інформації за рахунок використання гіперпосилань;
  • електронний словник має ефективну систему пошуку (повнотекстовий пошук, одночасний пошук в декількох словниках, швидкість пошуку);
  • у електронних словниках можуть застосовуватися засоби мультимедіа: озвучування заголовних слів, введення ілюстративного матеріалу з фотографіями, анімацією, відеофрагментами;
  • можливість використання словників в локальній і глобальній мережах;
  • значна економія часу і матеріальних ресурсів при створенні комп'ютерних словників.

Значний досвід досліджень в комп'ютерній лексикографії дозволяє розширити можливості вивчення смислової структури політичного слова. Так, сьогодні в наукових проектах активно розробляється ідея, пов'язана з організацією концептуального простору мови політики з позиції гіпертекстової єдності.

Кажучи про специфіку змісту такого словника, відзначимо, що слово в електронному варіанті реалізується в семантичному макрополі, що складається з декількох полів, збудованих в певну систему:

  1. поле індексації служить для зручного пошуку в базі даних;
  2. поле заголовного слова;
  3. поле граматичної інформації, прагматичне навантаження якої пов'язане з конкретним граматичним статусом в текстах;
  4. поле етимологічних довідок;
  5. поле авторського тлумачення будується не по всій семантичній парадигмі слова, а лише по її основній частині, тематично пов'язаній з політичною сферою вживання;
  6. поле ілюстрацій працює для верифікації дефініції, тим самим виявляє семантику політичного слова в певному контекстуальному оточенні. Важливо відзначити, що в словнику ілюстрації з текстів різних жанрів використовуються і в традиційному вигляді як виправдувальний контекст (це особливо важливо для метафоричних значень) і як лексикографічний прийом, що допомагає створити просторова, тимчасова і соціально-історична перспективи;
  7. поле фразеології;
  8. поле енциклопедичних відомостей відображає основні етапи становлення даної дефініції, еволюцію його домінантних ознак.

Комп'ютерне забезпечення словника довідкового типу складається з двох складових:

  • база даних словника визначається системою керування базами даних;
  • інтерфейс розробляється спеціально для даного словника. Базою для його реалізації послужила мова програмування Delphi, який дозволяє здійснювати завдання автоматичного пошуку слів, а також зручній навігації усередині словника.

Наведемо лексикографічний віртуальний портрет слова ескалація.

Слово в електронному словнику представлене в 4-х полях:

  • поле 1 складається з блоку заголовного слова, блоку граматичних послід, етимона. У цьому ж полі обов'язковим елементом є блок авторського тлумачення;
  • поле 2 представлено ілюстративним матеріалом Корпусу російської національної мови. Ці ілюстрації допомагають описати семантичну структуру слова і визначити комунікативний статус слова;
  • поле 3 — мікроструктура електронного словника, що включає дефініції сучасних тямущих і тямущо-довідкових видань.
  • поле 4 є, на наш погляд, необхідною структурною частиною електронного довідкового видання і містить енциклопедичні відомості про дане поняття. У великому енциклопедичному словнику, наприклад, дане слово визначається як розширення, нарощування (озброєнь тощо), поступове посилення, розповсюдження (конфлікту тощо), загострення (положення тощо).

Саме 3-і і 4-і поля можуть описати динаміку розвитку семантики слова. Наприклад, слово ескалація в сучасних словниках політичної мови представлено з імпліцитним негативним прагматичним компонентом, обумовленим категоріальною семою дія, направлена на негативний результат, що підтверджується «Полем ілюстрацій».

Таким чином, словник є систематизований алфавітний масив ядерної політичної лексики. Пропоноване лексикографічне дослідження дає можливість виявити основні тенденції в розвитку ядерної політичної лексики, забезпечити доступність словника за рахунок ефективної системи пошуку, а також зберігати великий обсяг інформації за рахунок гіперпосилань.

Посилання[ред.ред. код]


Мовознавство Це незавершена стаття з мовознавства.
Ви можете допомогти проекту, виправивши або дописавши її.