Браунівський корпус

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
«Браунівський корпус»
Автор В. Нельсон Франсис, Генрі Кучера
Назва мовою оригіналу Brown Corpus
Країна США
Мова Англійська (американський варіант)
Тема лінгвістичний корпус
Видавництво The Cooperative Research Program of the U.S. Office of Education, Brown University
Видано 1964 р. (оригінальна версія)
Кафедра когнітивної лінгвістики і психологічних наук Браунського університету

Стандартизований корпус сучасної американської англійської мови Браунського університету (або Браунівський корпус) — це електронне зібрання текстів американського варіанту англійської мови, перший великий структурований, комп'ютеризований корпус різних жанрів, призначений для лінгвістичних досліджень сучасної англійської мови. Цей корпус вважають першим повноцінним лінгвістичним корпусом. Його розробка відкрила широкі перспективи для наукового вивчення частоти вживання та розподілу категорій слів у повсякденному мовленні. Укладений Генрі Кучерою та В. Нельсоном Френсісом з Браунського університету в Род-Айленді. Це загальномовний корпус, що містить 500 текстів англійської мови загальною кількістю приблизно 1 мільйон слововживань, зібраних з робіт, опублікованих у Сполучених Штатах протягом 1961 року.

Доступні 6 версій корпусу: оригінальна (Форма A), Форма B з виключеними пунктуаційними кодами, розмічена Форма C, Форми Бергена І та ІІ і форма Brown MARC.[1]

Опубликований також офіційний мануал до корпусу, він доступний онлайн (див. [2])

Історія[ред. | ред. код]

У 1967 році Кучера і Френсіс оприлюднили свою знакову працю «Обчислювальний аналіз сучасної американської англійської мови», яка стала майбутньою статистичною базою для створення Браунівського корпусу. [3]

Браунівський корпус являв собою ретельно зібрану добірку поточної американської англійської мови, що налічувала близько 1 мільйона слів, взятих із найрізноманітніших джерел. Кучера і Френсіс проводили на його основі різнобічні обчислювальні аналізи, оптимізувавши цей проєкт, поєднавши елементи лінгвістики, психології, статистики та соціології. Він дуже широко використовувався в комп’ютерній лінгвістиці і протягом багатьох років був одним з найбільш цитованих ресурсів у цій галузі. [4]

Невдовзі після публікації першого лексикостатистичного аналізу бостонський видавець Houghton-Mifflin звернувся до Кучери, щоб надати базу цитат на мільйон слів для свого нового «Словника Американської Спадщини»[en]. Цей новаторський новий словник, який вперше з’явився у 1969 році, був першим словником, який був укладений за допомогою розробок корпусної лінгвістики для частоти слів та іншої інформації.

На початку Браунівський корпус мав лише самі слововживання, а також ідентифікатор розташування їх у текстах. Протягом наступних кількох років почали застосовувалися теги на позначення граматичних категорій. Програма додавання тегів Greene і Rubin (див. розділ «Позначення тегів у мові» ) значно допомогла в цьому, але високий рівень помилок означав, що потрібна була велика ручна коректура.

Розмічений Браунівський корпус використовував вибірку з приблизно 80 категорій, а також спеціальні індикатори для складених слів, скорочень, іншомовних запозичень та деяких інших явищ. Він став моделлю для багатьох пізніших корпусів, таких як Корпус Ланкастера-Осло-Бергена (британська англійська з початку 1990-х) та Фрайбург-Браун Корпус американської англійської мови (FROWN) (американська англійська з початку 1990-х). [5] [6] Розмітка корпусу дозволяла робити набагато складніший статистичний аналіз, наприклад, роботу, запрограмовану Ендрю Макі та задокументовану в книгах з англійської граматики. [7]

Браунівський корпус фактично ознаменував початок активного розвитку корпусної лінгвістики. Він дозволяв робити певні статистичні висновки. Наприклад, цікавим результатом є те, що навіть для досить великих вибірок графік слів у порядку зменшення їх частоти вживання утворює гіперболу: частотність n-ого найбільш вживаного слова є константою, яка приблизно пропорційна до 1/n. Таким чином, «the» становить майже 7% Браунівського корпусу, «to» і «of» більше ніж ще 3% кожне. Таким чином, слово «the» займає близько 7% Браунівського корпусу, «to» та «of» понад 3% кожне. Проте майже половина загального наповнення текстів (приблизно 50000 слів) становить hapax legomena: слова, які зустрічаються лише один раз у корпусі. [8] Це відношення порядку та частотності досліджувалося Джорджем Кінгслі Зіпфом (наприклад, див. «Психобіологія мови») і відоме як закон Ципфа .

Незважаючи на те, що Браунівський корпус став першим у галузі корпусної лінгвістики, на даний момент інші типові корпуси (наприклад, Корпус сучасної американської англійської мови, Британський національний корпус або Міжнародний корпус англійської мови ) зазвичай є набагато більшими - близько 100 мільйонів слів.

Класифікація текстів[ред. | ред. код]

Розподіл текстів у Браунівському корпусі за тематикою

Корпус включав 500 текстів, опублікованих до 1961 року, розподілених приблизно порівну по 15 жанрах. Усі відібрані роботи були вперше опубліковані в 1961 році й написані носіями американської англійської мови.

Кожен зразок тексту починався з випадкової межі речення у статті чи іншому вибраному підрозділі й продовжувався до першої межі речення після 2000 слів. У невеликій кількості випадків неправильні підрахунки призвели до того, що тексти почали становити трохи менше 2000 слів.

Початкове введення даних здійснювалося на перфораційних машинах тільки великими літерами; великі літери позначалися зірочкою (*), а різні спеціальні елементи, такі як формули, також мали спеціальні кодові позначення.

Спочатку корпус (на 1961 рік) містив 1 014 312 слововживань із 15 текстових категорій:

  • А. ПРЕСА: Репортаж (44 тексти)
    • Політичний
    • Спорт
    • Суспільство
    • Екстрені новини
    • Фінансовий
    • Культурний
  • B. ПРЕСА: Редакційна стаття (27 текстів)
    • Інституційний щоденник
    • Особисте
    • Листи до редакції
  • C. ПРЕСА: Рецензії (17 текстів)
    • театр
    • книги
    • музика
    • танці
  • D. РЕЛІГІЯ (17 текстів)
    • Книги
    • Періодичні видання
    • Трактати
  • E. НАВИЧКИ ТА ХОБІ (36 текстів)
    • Книги
    • Періодичні видання
  • F. НАРОДНІ ПЕРЕКАЗИ (48 текстів)
    • Книги
    • Періодичні видання
  • G. БЕЛЕТРИСТИКА - Біографія, мемуари тощо (75 текстів)
    • Книги
    • Періодичні видання
  • H. ІНШЕ: Уряд і внутрішні органи США (30 текстів)
    • Урядові документи
    • Звіти фонду
    • Галузева звітність
    • Корпоративний каталог
    • Галузь внутрішнього органу
  • J. НАУКОВИЙ (80 текстів)
    • Природничі науки
    • Медицина
    • Математика
    • Соціальні та поведінкові науки
    • Політологія, Право, Освіта
    • Гуманітарні науки
    • Технологія та техніка
  • K. ХУДОЖНЯ ЛІТЕРАТУРА: Загальне (29 текстів)
    • Романи
    • Розповіді
  • L. ХУДОЖНЯ ЛІТЕРАТУРА: Містика та детектив (24 тексти)
    • Романи
    • Розповіді
  • M. ХУДОЖНЯ ЛІТЕРАТУРА: Наука (6 текстів)
    • Романи
    • Розповіді
  • N. ХУДОЖНЯ ЛІТЕРАТУРА: Пригоди та вестерн (29 текстів)
    • Романи
    • Розповіді
  • P. ХУДОЖНЯ ЛІТЕРАТУРА: Любовний роман та історія кохання (29 текстів)
    • Романи
    • Розповіді
  • R. ГУМОР (9 текстів)
    • Романи
    • Нариси тощо.

Теги на позначення граматичних категорій[ред. | ред. код]

Тег Визначення
CC сполучник сурядності (and, or)
CD кількісні числівники (one, two і т.д.)
CS сполучник підрядності (if, although)
EX квантор існування (there is/are ...)
JJ прикметник
JJA прикметник + допоміжне слово
JJC прикметник, вища ступінь порівняння
JJCC прикметник + сполучник
JJS прикметник найвищого ступеня порівняння
JJF прикметник + жіночий рід
JJM прикметник + чоловічий рід
NN іменник однини або множини
NNA іменник + допоміжне слово
NNC іменник + сполучник
NNS іменник + множина
NNP власне ім'я або частина іменної фрази
NNPC власний ім'я + сполучник
PRP особовий займенник, однина
PRPS особовий займенник, множина
PRP$ присвійний займенник
RB прислівник
RBR прислівник у вищій ступені порівняння
RBS прислівник у найвищій ступені порівняння
VB дієслово, інфінітив
VBA дієслово + допоміжне дієслово, однина, теперішній час
VBD дієслово, минулий час
VBG дієслово, дієприкметник теперішнього часу/герундій
VBN дієслово, дієприкметник минулого часу
VBZ дієслово, 3 ос. однини теперішнього часу
FW іноземні слова
PUN усі розділові знаки

Схожі проєкти[ред. | ред. код]

Браунівський корпус став натхненням для створення цілої групи корпусів, у тому числі корпус Ланкастер-Осло/Берген (LOB), Браунівський Британський корпус, та інші еквіваленти оригінального Браунівського корпусу.

Браунський корпус української мови — відкритий, збалансований за жанрами та в проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань зі знятою омонімією. Корпус побудований на засадах, що були покладені в основу корпусу англійської мови Brown.

Суміжні проєкти[ред. | ред. код]

The Lancaster-Oslo/Bergen Corpus (LOB Corpus)

The Kolhapur Corpus of Indian English

The Australian Corpus of English (ACE)

The Wellington Corpus of Written New Zealand English

The Freiburg-LOB Corpus of British English (FLOB)

The Freiburg-Brown Corpus of American English (FROWN)

The International Corpus of English (ICE)

Див. також[ред. | ред. код]

Джерела[ред. | ред. код]

  1. The Standard Corpus of Present-Day Edited American English (the Brown Corpus).
  2. Francis, W. N. and H. Kučera (1964). Manual of Information to accompany A Standard Corpus of Present-Day Edited American English. Rhode Island: Department of Linguistics, Brown University. Архів оригіналу за 18 травня 2014. Процитовано 27 квітня 2022.
  3. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  4. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html [Архівовано 18 травня 2014 у Wayback Machine.].
  5. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM [Архівовано 3 квітня 2014 у Wayback Machine.]
  6. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  7. Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
  8. Kirsten Malmkjær, The Linguistics Encyclopedia [Архівовано 11 лютого 2022 у Wayback Machine.], 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.