Британський національний корпус

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Британський національний корпус
Посилання natcorp.ox.ac.uk
Тип Наукова література
Мови Британська англійська
Засновник Oxford University Press і Longman
Автор Видавництво Оксфордського університету, Longman, W. & R. Chambers, Оксфордський університет, Університет Ланкастера, Британська бібліотека
Започатковано 1994
Стан Відкритий

Британський національний корпус (БНК, BNC, англ. British National Corpus) — це корпус текстів зі 100 мільйонів слів, що містить зразки письмової та розмовної британської англійської мови з широкого кола джерел [1] [2] [3]. Корпус охоплює британську англійську кінця XX століття, представлений широкою різноманітністю жанрів і задуманий як зразок типової розмовної та письмової британської англійської мови того часу.

Історія[ред. | ред. код]

В рамках проекту зі створення Британського національного корпусу співпрацювали три видавці (Видавництво Оксфордського університету в якості провідного співавтора, а також Longman і W. & R. Chambers[en]) і два університети (Оксфордський та Ланкастерський) та Британська бібліотека.

Створення BNC почалося в 1991 році під керівництвом Консорціуму BNC; в 1994 корпус було завершено. BNC зазнав незначних змін перед випуском другого (BNC World, 2001) та третього (BNC XML Edition, 2007) видання [4] .

Передумови створення[ред. | ред. код]

Спеціалісти з комп'ютерної лінгвістики бачили BNC як корпус сучасної на момент складання, характерної для реальних умов мови в усній чи письмовій формі, яку міг би обробляти комп'ютер. В результаті, BNC був складений у формі, зручній для обробки на комп'ютері, для того, щоб забезпечити автоматичний пошук та обробку методами корпусної лінгвістики. Однією з відмінностей BNC від існуючих на той час корпусів була можливість використання данних не тільки в наукових дослідженнях, а й у комерційних, і освітніх цілях [3] .

Обсяг корпусу[ред. | ред. код]

Укладачі BNC для порівняння спробували представити корпус у вигляді звичайної книжкової продукції і одержали вражаючі показники. Якщо видруковувати корпус на тонкому папері з розрахунку 400 слів на сторінку, то весь його обсяг у друкованому вигляді займатиме простір близько 10 м2 . Для того, щоб прочитати цю продукцію зі швидкістю 150 слів на хвилину, витрачаючи на це 8 годин щодня, знадобилося б 4 роки [Карпіловська 2006: 76].

За заданим Британським національним корпусом стандартом були укладені представницькі корпуси багатьох європейських мов. За цією моделлю були створені національні корпуси іспанської, італійської, хорватської, чеської мов.

Компоненти корпусу: письмовий та розмовний[ред. | ред. код]

Письмовий корпус[ред. | ред. код]

Британський національний корпус

90% корпусу складають зразки вживання письмової мови. Ці приклади були взяті з регіональних та загальнонаціональних газет, наукових журналів та періодики різних наукових напрямів, художньої літератури та публіцистики, як з опублікованих, так і неопублікованих матеріалів (таких як брошури, листи, студентські есе, сценарії, мови), а також з багатьох інших джерел.

Розмовний корпус[ред. | ред. код]

10% матеріалу Британського національного корпусу, що залишився, — це зразки застосування розмовної мови, які були представлені і записані за допомогою практичної транскрипції.

Розмовний корпус складається із двох частин. Демографічна частина містить транскрипцію спонтанних розмов, які відбувалися в реальних умовах за участю волонтерів із різних вікових груп, регіонів та соціальних верств. Ці розмови відбувалися у різних ситуаціях, включаючи ділові чи урядові зустрічі та обговорення в радіопередачах або телефоном. Це було зроблено для врахування як демографічного розподілу розмовної мови, і лінгвістично значущого розмаїття мови, обумовленого контекстом.

Друга частина розмовного корпусу включає контекстно-залежні зразки, такі як транскрипції записів, підготовлених на вході особливих зустрічей або заходів.

Усі вихідні записи, транскрибовані для включення до BNC, було розміщено в архіві звуку британської бібліотеки[5]. Більшість записів доступно на сайті фонетичної лабораторії [Архівовано 24 березня 2022 у Wayback Machine.] Оксфордського університету.

Лукащук М. В [Архівовано 13 квітня 2022 у Wayback Machine.] виокремив ареал фіксації текстів та типи текстів, які відображають усне та письмове мовлення у своїй дисертації [Архівовано 26 лютого 2022 у Wayback Machine.]. Як свідчать дані таблиці, найбільш репрезентативним серед реґіонів фіксації текстів БНК є південна частина Великої Британії, а найменш представленими — Ірландія та США. Такий стан справ може бути зумовлений соціально-економічними та політичними чинниками з огляду на розміщення основних медійних засобів, політично-адміністративних установ, видавництв, саме в південній частині Великої Британії. З іншого боку, БНК зорієнтований, у першу чергу, на друковані матеріали Великої Британії, що значно зменшує частку друкованої продукції з інших англомовних країн (Ірландія, США).

Регіон Тексти Слова % Речення %
Невідомий 690 14583761 16.70 790465 15.76
Велика Британія (неуточнено) 264 7124424 8.16 383046 7.63
Ірландія 37 567046 0.64 31825 0.63
Велика Британія (північ) 192 3778114 4.32 230008 4.58
Велика Британія (центр) 93 2622554 3.00 192379 3.83
Велика Британія (південь) 1854 58066891 66.53 3365045 67.11
США 14 535415 0.61 21204 0.42

Як і в усних текстах, південна частина Великої Британії займає провідне місце в ареальній характеристиці письмових текстів (1854 тексти). Найменш репрезентативними є регіони Ірландії та США.

Розмітка[ред. | ред. код]

Корпус BNC містить граматичну розмітку частин мови. Для реалізації цієї розмітки  була використана система розмітки CLAWS. Ця система пройшла крізь ряд модифікацій аж до останньої, актуальної CLAWS4.

CLAWS1 базувалася на прихованій марковській моделі та коректно розмічала від 96% до 97% будь-якого тексту. За CLAWS2 зникла необхідність мануальної підготовки тексту перед запуском процесу розмітки.

У CLAWS4 з'явилися потужніші можливості для розв'язку лексичної багатозначності (WSD)[en], а також врахування варіацій в орфографії та мові розмітки. Подальша робота над системою розмітки орієнтувалася на збільшення успішних показників автоматичної розмітки та зменшення мануальної підготовки текстів перед процесом розмітки шляхом введення у використання додаткового програмного забезпечення для її заміщення — "Template Tagger"[6]. Пізніше були додані теги, що вказують на неоднозначність.

Мануальна розмітка все ще необхідна, оскільки CLAWS4 не може обробляти іноземні слова.[7]

Практичне використання корпусу[ред. | ред. код]

Лукащук В. М. у своїй дисертації [Архівовано 26 лютого 2022 у Wayback Machine.]: "Доступ до великого обсягу текстів дозволяє уникнути хибних узагальнень про стан мови, які можуть мати місце при роботі з обмеженим матеріалом. Національні корпуси є не тільки дуже зручним інструментом для пошуку мовного матеріалу, але й предметом нової ідеології вивчення мови, для якої мова і є корпусом. Корпусна лінгвістика зосереджує свою увагу на ідеї вибору і на лінгвістиці мовлення. Таким чином, національний корпус ‒ це водночас і база, і інструмент лінгвістичного дослідження, а також обов‘язковий формат репрезентації мовного знання і мови."

Напрямки розвитку[ред. | ред. код]

Морфологічна обробка[ред. | ред. код]

У рамках поточної роботи з морфологічної обробки — ключової області в сфері обробки природної мови (Natural Language Processing), — дані BNC були використані для перевірки точності, надійності та швидкості обчислювальних інструментів, розроблених для полегшення аналізу та обробки морфологічних маркерів у британській англійській мові.[8] Серед обчислювальних інструментів була програма (відома як аналізатор), що дозволяла аналізувати флективну морфологію британської англійської, а також програма, яка генерувала морфологічні позначки на основі результатів аналізатора.

Дані BNC також були використані для створення великого сховища інформації про морфологічні маркери британської англійської. Зокрема, з приблизно 1100 лем, виокремлених з BNC, було створено контрольний список, до якого звертався морфологічний генератор, перш ніж відмінювати дієслова з подвоєнням приголосних.[8]

Оскільки BNC є визначною спробою збору й подальшої обробки такої великої кількості даних, він став впливовим предтечею в цій області, моделлю або зразковим корпусом, на який орієнтувалася та на якому базувалася розробка інших корпусів.[9]

BNC2014[ред. | ред. код]

У липні 2014 року видавництво Кембриджського університету та Центр корпусних підходів до соціальних наук (CASS) [Архівовано 14 квітня 2022 у Wayback Machine.] в Ланкастерському університеті зробили заяву, що новий британський національний корпус – BNC2014[10] – знаходиться на стадії компіляції.[11] Першим етапом спільного проекту між двома установами було укладання нового розмовного корпусу британської англійської з початку до середини 2010-х років.[12] 25 вересня 2017 року було оприлюднено Розмовний британський національний корпус 2014 року обсягом в 11,5 мільйонів слів. Письмовий компонент BNC2014 налічує 100 мільйонів слів; його обмежена версія була опублікована 19 листопада 2021 року.

На відміну від попереднього видання, до текстів письмового компоненту BNC2014 немає вільного доступу. Запити з обмеженим функціоналом наразі реалізуються за допомогою спеціального програмного забезпечення, розробленого Ланкастерським університетом.

Питання дозволу використання матеріалу[ред. | ред. код]

BNC став першим корпусом такого розміру, доступний широкій аудиторії. Можливо, це було пов'язано з типовими формами угод між правовласниками та Консорціумом з одного боку, та між користувачами корпусу та Консорціумом з іншого. Творці корпусу прагнули укласти з власниками прав на інтелектуальну власність угоду зі стандартною ліцензією, одним із положень якої було включення до корпусу матеріалу без сплати будь-яких грошових зборів. Такій домовленості сприяли оригінальність та унікальність корпусу[13].

Однак виявилося непросто зберегти анонімність людей, внесених вкладів, без зменшення значимості їх роботи. Будь-який непрозорий натяк на особистість автора видалявся з матеріалів корпусу. При цьому розглядалася можливість підміни справжніх імен іншими іменами для збереження анонімності, що, зрештою, було визнано недоречним[13].

Крім того, у авторів спочатку було запрошено дозвіл на включення тільки транскрибованих версій їх мови, але не на включення самої мови. Хоча подібне рішення могло бути запитано повторно, пошук значущих авторів може бути ускладнено процесом анонімізації. У той же час стали явними фактори, які поглиблювали небажання правовласників жертувати корпусу свої матеріали: повні тексти були виключені з корпусу, що привело до наявності мотивації для правовласників поширити інформацію за допомогою корпусу (особливо у зв’язку з його некомерційною основою)[13].

Недоліки та обмеження[ред. | ред. код]

Категорії[ред. | ред. код]

До 2001 року в BNC все ще не було категоризації текстів для письмових текстів за межами домену, а також не було категоризації усних текстів за винятком контексту та демографічних чи соціально-економічних класів. Наприклад, до BNC було включено широкий спектр творчих текстів (романів, оповідань, віршів і драматичних сценаріїв), але такі включення вважалися марними, оскільки дослідники не змогли легко знайти піджанри, над якими вони хотіли працювати (наприклад. , поезія). Оскільки ці метадані були пропущені в заголовках файлів і в усій документації BNC, не було жодного способу дізнатися, чи дійсно «уявний» текст походить із роману, оповідання, драматичного сценарію чи збірки віршів, якщо тільки назва насправді не міститься такі слова, як "роман" або "поема".[14]

З виходом у 2002 році нової версії BNC World Edition, BNC спробував вирішити цю проблему. Окрім домену, тепер існує 70 жанрових категорій як для усних, так і для письмових даних, тому дослідники тепер можуть спеціально отримувати тексти за жанрами. Однак навіть після цих доповнень реалізація залишається складною, оскільки призначити жанр або піджанр тексту непросто. Розділи менш чіткі для усних даних, ніж для письмових, оскільки було більше варіацій у темі та виконанні. Крім того, завжди будуть можливі підмножини жанрів кожного піджанру. Категоризація також є проблемною, оскільки певні тексти, хоча й вважаються такими, що належать до міждисциплінарного жанру, як-от лінгвістика, включають вміст, який згодом класифікується як на категорії мистецтва, так і на наукові категорії через характер їх змісту.[15]

Класифікація та дискурс[ред. | ред. код]

Деякі тексти були віднесені до неправильної категорії, як правило, через оманливу назву. Користувачі не завжди можуть покладатися на назви файлів як на ознаки їх реального вмісту: наприклад, багато текстів із «лекцією» в назві насправді є обговореннями в класі або навчальними семінарами, в яких бере участь дуже невелика група людей, або були популярними лекціями (адресовані для широкої аудиторії, а не для студентів вищого навчального закладу).[16] Однією з причин є те, що позначки жанру та піджанру можуть бути призначені лише для більшості текстів у категорії. У жанрах є піджанри, і для кожного тексту зміст може бути неоднорідним і може охоплювати кілька піджанрів.[17]

Співвідношення письмового та усного матеріалу в BNC становить 10:1, що робить усний матеріал недостатньо представленим. Це пов’язано з тим, що вартість збору та транскрибування мільйона слів природного мовлення принаймні в 10 разів вища, ніж вартість додавання ще мільйона слів газетного тексту. Деякі лінгвісти стверджують, що це є недоліком у корпусі, оскільки мова і письмо є однаково важливими в мові.[18] BNC не ідеально підходить для вивчення багатьох особливостей розмовного дискурсу, оскільки більшість його транскриптів є орфографічними. Паралінгвістичні особливості вказані лише приблизно.[19]

Джерела[ред. | ред. код]

  1. Lou Burnard et al, 1998, XIII.
  2. Geoffrey Leech et al, 1994, с. 47-63.
  3. а б Geoffrey Leech, 1993, с. 9-15.
  4. What is the BNC? [Архівовано 7 квітня 2022 у Wayback Machine.]. Retrieved 12 March 2012.
  5. body., British Library, issuing body. Gale Group, issuing body. Gale (Firm), issuing. British Library newspapers. OCLC 181758240.
  6. Leech, Garside, Bryant (1994). "Corpus-based research into language: in honour of Jan Aarts". In N. Oostdjik & P. Haan (ed.). The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. с. 47—63.
  7. Leech, Garside, Bryant (1994). "Claws4: The Tagging Of The British National Corpus". Архів оригіналу за 13 квітня 2022. Процитовано 13 квітня 2022.
  8. а б Minnen, Guido; Carroll, John; Pearce, Darren. Applied Morphological Processing of English (PDF). Архів оригіналу (PDF) за 14 квітня 2022. Процитовано 14 квітня 2022.
  9. Čermák, František (2003). Today's Corpus Linguistics: Some Open Questions. Архів оригіналу за 14 квітня 2022. Процитовано 14 квітня 2022.
  10. British National Corpus 2014. Архів оригіналу за 5 квітня 2022. Процитовано 14 квітня 2022.
  11. McEnery, Tony (28 липня 2014). Spoken BNC2014 project announcement. Архів оригіналу за 27 липня 2021. Процитовано 14 квітня 2022.
  12. Centre for Corpus Approaches to Social Science. Архів оригіналу за 27 липня 2021. Процитовано 14 квітня 2022.
  13. а б в [Lou Burnard, 2002. Британский национальный корпус]. Википедия (рос.). 23 грудня 2021. Процитовано 14 квітня 2022. {{cite news}}: Перевірте схему |url= (довідка)
  14. "GENRES, REGISTERS, TEXT TYPES, DOMAINS, AND STYLES" (PDF). 2001. Архів оригіналу (PDF) за 15 грудня 2017. Процитовано 19 квітня 2022. {{cite web}}: |first= з пропущеним |last= (довідка)
  15. Lee, David (2002). "NOTES TO ACCOMPANY THE BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX". Архів оригіналу за 1 квітня 2022. Процитовано 19 квітня 2022.
  16. http://llt.msu.edu/vol5num3/pdf/lee.pdf.
  17. https://web.archive.org/web/20130923082536/http://pezik.pl/wp-content/uploads/2011/11/BNCWIndexNotes.pdf.
  18. Burnard, Lou (2002). "Where did we go wrong? A retrospective look at the British National Corpus" (PDF). Archived from the original (PDF) on 4 March 2016. Retrieved 14 March 2012.
  19. Aston, Guy (1998). "Learning English with the British National Corpus". Paper given at 6th Jornada de Corpus, Barcelona: UPF. Retrieved 16 March 2012.