Корпусна лінгвістика

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Мовознавство
Мови світу
Загальне мовознавство
Теоретична лінгвістика
Фонологія
Граматика
Морфологія
Синтаксис
Лексикологія
Семантика
Лексична семантика
Статистична семантика
Структурна семантика
Прототипна семантика
Прагматика
Когнітивна лінгвістика
Генеративна лінгвістика
Дескриптивна лінгвістика
Антропологічна лінгвістика
Порівняльна лінгвістика
Історична лінгвістика
Етимологія
Фонетика
Соціолінгвістика
Прикладна лінгвістика
Математична (комп'ютерна) лінгвістика
Засвоєння мови
Психолінгвістика
Стилістика
Приписова лінгвістика
Корпусна лінгвістика
Перекладознавство
Пов'язані статті
Історія лінгвістики
Список лінгвістів
Невирішені проблеми

Корпусна лінгвістика — розділ мовознавства, що вивчає створення, обробку та використання корпусів.

Рішення задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — до корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання.

За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених галузях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку — лінгвістичний аналіз тексту і інформаційний аналіз тексту.

Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, «бачить» текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення.

Корпуси[ред.ред. код]

Нині в науковому словнику лінгвістів з'являються дуже близькі поняття: «електронні бібліотеки», «масив текстів», «колекція текстів», «електронний архів», «повнотекстова база даних». Серед них можна виділити лінгвістичні корпуси, або мовні корпуси. Корпус текстів — це вид корпусу даних, одиницями якого є тексти або їх достатньо значні фрагменти, що включають, наприклад, якісь повні фрагменти макроструктури текстів даної проблемної області.

Корпус текстів характеризується чотирма основними параметрами: по-перше, він повинен бути достатньо великого обсягу; по-друге, корпус повинен бути структурованим або розміченим; по-третє, тексти, складові певного корпусу, повинні бути в електронному варіанті; по-четверте, в поняття «Електронний корпус» входить, як правило, спеціальне програмне забезпечення для роботи з цим корпусом.

Цінність корпусу вбачається в наступному:

  • одного разу зроблений корпус може багато разів використовуватися;
  • корпус показує мовні дані в їх реальному оточенні, що дозволяє досліджувати лексичну і граматичну структуру мови, а також безперервні процеси мовних змін, що відбуваються в мові впродовж певного відрізка часу;
  • корпус характеризується показовістю, або збалансованим складом текстів, що дозволяє використовувати його для тестування пошукових машин, машинних морфологій, систем перекладу, а також використовувати його в різних лінгвістичних дослідженнях;
  • корпус має важливе значення для викладання мови, оскільки за допомогою корпусу можна швидко і ефективно перевірити особливості вживання незнайомого слова або граматичної форми.

Робота з корпусами, тобто з масивами текстів, представленими в електронному вигляді, стала одним з основних методів лінгвістичних досліджень. Так, ще в 1960-і роки створювався Браунівський корпус[en] (США)[1], який включає 1 млн слів. Відтоді виникла ціла низка аналогічно побудованих корпусів: LOB корпус[en] (британська англійська у 1960-х роках), Колхапур ( індійська англійська[en]), Веллінгтон ( новозеландська англійська[en]), Австралійський корпус англійської мови (австралійська англійська), корпус Фраун (на початку 1990-х років американська англійська), а також FLOB Корпус (1990-ті роки британська англійська). Міжнародний корпус англійської мови і Британський національний корпусBritish National Corpus включають колекцію зі 100 млн слів розмовного та письмового тексту. Наповнюються інші національні корпуси мов (угорський, італійський, хорватський, чеський, японський) обсягом 100 млн слів. На початку XXI ст. створили American National Corpus, 100 млн слів і Gigaword corpora (англійська, арабська, китайська), що включає 1 млрд слів.

Крім корпусу живих мов, з колекцій текстів зробили комп'ютерні корпуси стародавніх мов. Наприклад, з 1970-х років створюється база єврейської Біблії.[2][3] У Корпусі арабської мови Корану[en] зібрано понад 77 тисяч слів.[4]

Перший комп'ютеризований лінгвістичний корпус був розроблений 1971 року Монреальським французьким проектом, що містить один мільйон слів.[5][6]

Існування корпусів текстів дає можливість значно розширити й автоматизувати аналіз мовного матеріалу, який є найважливішою базою будь-якого лінгвістичного дослідження. Чим більше матеріалів аналізується, тим вища значущість висновків і рівень їх достовірності.

Сучасні комп'ютерні програми дозволяють знаходити потрібні приклади з корпусів текстів, які зберігаються в електронному вигляді на комп'ютері. Це економить значну кількість часу в порівнянні з традиційною технологією збору прикладів вручну.

Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.

Існують різні типи розмітки:

  • метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;
  • структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, речення, тексту;
  • лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (заперечне речення або питальне, спонукальне або примикання і т. д.).

Як відомо, чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна цінність корпусу.

Корпус української мови[ред.ред. код]

В Україні корпус текстів української мови розроблений співробітниками лабораторії комп'ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка під керівництвом Н. П. Дарчук.[7]

У корпусі зберігаються тексти, опрацьовані автоматичним лінгвістичним аналізатором. Це означає, що кожній одиниці тексту (морфемі, слову, словосполученню, реченню) приписана певна супровідна інформація: частиномовна належність, граматична форма, синтаксична функція, контекст тощо. Корпус надає інформацію двох типів:

  • Конкорданси, або ж контексти вживання шуканих одиниць (із вказівкою на джерела). За допомогою конкордансів можна вивчати особливості використання слів у текстах різних стилів, індивідуально-авторські вживання тих чи інших лексем, розвиток нових значень тощо. Конкорданси використовуються також для психолінгвістичних та соціолінгвістичних досліджень (вивчення асоціативних зв'язків між словами), у літературознавчому аналізі (для розкриття авторського бачення певних концептів чи образів, особливостей мовної картини світу певного автора) тощо.
  • Кількісні характеристики вживання у текстах мовних одиниць. Частотна інформація розкриває закономірності лексичної та статистичної будови текстів, функціонування мови в мовленні, стилістичні особливості, формальні риси одиниць і граматичних категорій.[8]

Конкорданси[ред.ред. код]

Докладніше у статті Конкорданс

Простір електронних текстових корпусів дав можливість результативного використання електронних конкордансів, які відкривають перспективи моделювання мовної картини світу. Конкорданс є спеціалізованою лінгвістичною прикладною програмою, за допомогою якої здійснюється автоматична вибірка заданих мовних одиниць з електронних текстів. Функцію конкордансу можна порівняти з функцією пошуку в текстовому редакторові, проте можливості конкордансу ширші — він аналізує не один, а відразу декілька текстів або корпусів електронних текстів, при цьому конкорданс виводить на екран інформацію про контекст використання заданих мовних одиниць. Залежно від технічних можливостей конкорданс може надавати інформацію про частотність вживання і сполучуваності тієї або іншої мовної одиниці, а також дає можливість звертатися до конкретного тексту, в якому був знайдений приклад. Існує електронний конкорданс повних творів Григорія Сковороди на сайті Албертського університету в Канаді (http:// www.arts.ualberta.ca/~ukr/skovoroda/NEW/index.php), а також Он-лайн конкорданс роману Івана Франка “Перехресні стежки” (автори: Бук С., Ровенчак А.) на сторінці Львівського університету (http://www.ktf.franko.lviv.ua/~andrij/science/Franko/concordance.html)

Комп'ютерна лексикографія[ред.ред. код]

Безумовно, корпусна лінгвістика яскраво і чітко репрезентує себе в одному з перспективних напрямів — комп'ютерної лексикографії. Електронні словники і енциклопедії розробляються сьогодні як автономні і мережеві програмні продукти. Не викликає сумніву той факт, що електронні словники надають користувачеві безліч додаткових можливостей в порівнянні з друкарськими аналогами:

  • дозволяють зберігати великий обсяг інформації за рахунок використання гіперпосилань;
  • електронний словник має ефективну систему пошуку (повнотекстовий пошук, одночасний пошук в декількох словниках, швидкість пошуку);
  • у електронних словниках можуть застосовуватися засоби мультимедіа: озвучування заголовних слів, введення ілюстративного матеріалу з фотографіями, анімацією, відеофрагментами;
  • можливість використання словників в локальній і глобальній мережах;
  • значна економія часу і матеріальних ресурсів при створенні комп'ютерних словників.

Значний досвід досліджень в комп'ютерній лексикографії дозволяє розширити можливості вивчення смислової структури політичного слова. Так, сьогодні в наукових проектах активно розробляється ідея, пов'язана з організацією концептуального простору мови політики з позиції гіпертекстової єдності.

Кажучи про специфіку змісту такого словника, відзначимо, що слово в електронному варіанті реалізується в семантичному макрополі, що складається з декількох полів, збудованих в певну систему:

  1. поле індексації служить для зручного пошуку в базі даних;
  2. поле заголовного слова;
  3. поле граматичної інформації, прагматичне навантаження якої пов'язане з конкретним граматичним статусом в текстах;
  4. поле етимологічних довідок;
  5. поле авторського тлумачення будується не по всій семантичній парадигмі слова, а лише по її основній частині, тематично пов'язаній з політичною сферою вживання;
  6. поле ілюстрацій працює для верифікації дефініції, тим самим виявляє семантику політичного слова в певному контекстуальному оточенні. Важливо відзначити, що в словнику ілюстрації з текстів різних жанрів використовуються і в традиційному вигляді як виправдувальний контекст (це особливо важливо для метафоричних значень) і як лексикографічний прийом, що допомагає створити просторова, тимчасова і соціально-історична перспективи;
  7. поле фразеології;
  8. поле енциклопедичних відомостей відображає основні етапи становлення даної дефініції, еволюцію його домінантних ознак.

Комп'ютерне забезпечення словника довідкового типу складається з двох складових:

  • база даних словника визначається системою керування базами даних;
  • інтерфейс розробляється спеціально для даного словника. Базою для його реалізації послужила мова програмування Delphi, який дозволяє здійснювати завдання автоматичного пошуку слів, а також зручній навігації усередині словника.

Наведемо лексикографічний віртуальний портрет слова ескалація.

Слово в електронному словнику представлене в 4-х полях:

  • поле 1 складається з блоку заголовного слова, блоку граматичних послід, етимона. У цьому ж полі обов'язковим елементом є блок авторського тлумачення;
  • поле 2 представлено ілюстративним матеріалом Корпусу російської національної мови. Ці ілюстрації допомагають описати семантичну структуру слова і визначити комунікативний статус слова;
  • поле 3 — мікроструктура електронного словника, що включає дефініції сучасних тямущих і тямущо-довідкових видань.
  • поле 4 є, на наш погляд, необхідною структурною частиною електронного довідкового видання і містить енциклопедичні відомості про дане поняття. У великому енциклопедичному словнику, наприклад, дане слово визначається як розширення, нарощування (озброєнь тощо), поступове посилення, розповсюдження (конфлікту тощо), загострення (положення тощо).

Саме 3-і і 4-і поля можуть описати динаміку розвитку семантики слова. Наприклад, слово ескалація в сучасних словниках політичної мови представлено з імпліцитним негативним прагматичним компонентом, обумовленим категоріальною семою дія, направлена на негативний результат, що підтверджується «Полем ілюстрацій».

Таким чином, словник є систематизований алфавітний масив ядерної політичної лексики. Пропоноване лексикографічне дослідження дає можливість виявити основні тенденції в розвитку ядерної політичної лексики, забезпечити доступність словника за рахунок ефективної системи пошуку, а також зберігати великий обсяг інформації за рахунок гіперпосилань.

Примітки[ред.ред. код]

  1. Brown Corpus
  2. Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies 40, pp. 43–61
  3. Eyland, E. Ann (1987), «Revelations from Word Counts», in Newing, Edward G.; Conrad, Edgar W., Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake
  4. Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
  5. Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7–64.
  6. Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411—451.
  7. Тестова версія корпусу текстів української мови
  8. Корпус української мови

Посилання[ред.ред. код]


Мовознавство Це незавершена стаття з мовознавства.
Ви можете допомогти проекту, виправивши або дописавши її.