Корпус сучасної американської англійської мови

Корпус сучасної американської англійської мови (COCA) — це корпус, який містить близько одного мільярда слів ^[1] сучасної американської англійської мови. Його створив Марк Девіс, професор корпусної лінгвістики Університету Брігама Янга^[2]. ^[3]

COCA має ряд індивідуальних особливостей: величезний розмір корпусу, актуальні для сьогодення тексти (до 2019 року), великий асортимент жанрів текстів та зручний швидкий пошук, який надає можливість фільтрувати по жанрах та часі, а також порівнювати. Ще він відрізняється тим, що видає одразу 60 000 слів у корпусі і велику кількість інформації для кожного слова, в тому числі частоту, визначення, синоніми, записи в мережі WordNet, пов'язані теми, конкорданси, асоціації, веб-сайти, які мають слово із запиту як ключове та рядки з KWIC чи конкордансу.

Усі ці риси сприяють Корпусу сучасної американської англійської мови бути ідеальним для науковців, вчителів, викладачів та учнів.

Зміст[ред. | ред. код]

Корпус сучасної американської англійської мови (COCA) станом на квітень 2022 року складається з 1 001 610 938 слів. Він постійно поповнюється: у 2009 році там містилося понад 385 мільйонів слів; у 2010 році - близько 400 мільйонів слів; до березня 2019 року корпус зріс до 560 мільйонів слів; а до грудня 2019 року ця кількість досягла 1 мільярда слів.

Станом на квітень 2022 року Корпус сучасної американської англійської складається з 485 202 текстів. Згідно з веб-сайтом, поточний корпус (квітень 2022 року) складається з текстів, які включають 25+ мільйонів слів для кожного року (1990-2019).

Для кожного року, що міститься в корпусі (1990-2019), корпус рівномірно поділений на вісім жанрів: розмовні, художні, академічні тексти, популярні журнали, газети та (з оновленням у березні 2020): телебачення і субтитри до фільмів, блоги та інші веб-сторінки. Спочатку реєстрів було 6, та станом на квітень 2022 COCA також містить 125 496 215 слів з блогів і 129 899 426 слів із веб-сайтів, що робить його корпусом, який справді складається з сучасної американської англійської мови (див. сторінку «Тексти та реєстри» на сайті COCA).

Тексти беруться з різноманітних ресурсів:

Розмовні: 127 396 916 слів. Стенограми розмов без сценарію з більш ніж 150 різних теле- та радіопрограм.
Художня література: 119 505 292 слова. Оповідання та п’єси, перші розділи книг 1990 – дотепер і сценарії фільмів.
Популярні журнали: 127 352 014 слів. Близько 100 різних журналів із таких сфер як новини, здоров’я, будинок і садівництво, жіночі, фінансові, релігійні, спортивні тощо.
Газети: 122 959 393 слова. Десять газет США, з текстами із різних розділів газет таких як місцеві новини, думки, спорт та фінанси тощо.
Академічні журнали: 120 988 348 слів. Майже 100 різних рецензованих журналів, які були відібрані щоб охопити весь діапазон системи класифікації Бібліотеки Конгресу.
ТБ/субтитри фільмів: 128 012 334 слова. Субтитри були взяті з колекції OpenSubtitles [Архівовано 6 травня 2022 у Wayback Machine.].

Блоги: 125 496 215 слів. Ці тексти репрезентують підмножину текстів із США в корпусі GloWbE [Архівовано 2 квітня 2022 у Wayback Machine.].
Веб-сторінки: 129 899 426 слів. Підмножина "Загальні" тексти з США в корпусі GloWbE [Архівовано 2 квітня 2022 у Wayback Machine.]. Деякі з них є блогами, так як на той час неможливо було шукати "НЕ блоги" в Google.

Доступність[ред. | ред. код]

Корпус сучасної американської англійської мови є безкоштовний для пошуку за допомогою свого веб-інтерфейсу, користувачам потрібно лише зареєструватися і це дозволить здійснювати обмежену кількість запитів у день.

Запити[ред. | ред. код]

Інтерфейс такий самий, як інтерфейс BYU-BNC для Британського національного корпусу (який містить 100 мільйонів слів), корпусу журналу TIME (100 мільйонів слів) і *Historical* American English (COHA) (400 мільйонів слів), станом на 1810-2000-ті роки.

Запити можна робити за словом, фразою, альтернативами, підрядком, частиною мови, лемою, синонімами та налаштованими списками.
Корпус позначений тегами CLAWS, тією ж частиною мови, що використовувалася для BNC і корпусу TIME.
Діаграми (які містять загальні відомості для всіх відповідних форм у кожному жанрі (піджанрі) або році (доступні від 1990 - дотепер) та списки таблиць (які відображають частоту для кожної відповідної форми в будь-якому доступному жанрі чи році).
Повний пошук колокацій (до десяти слів ліворуч і праворуч від слова-вузла).
Конкорданси, які можна повторно сортувати, показують найпоширеніші (спільні) слова/рядки ліворуч і праворуч від шуканого слова.

Порівняння між жанрами або періодами часу (наприклад, словосполучення зі словом «chair» (крісло, стілець) частіше використовуються у художній чи академічній літературі, іменники з дієсловом «break the [N]» (зламати + ім.) - у газетах чи академічних розділах, прикметники - в спортивних журналах, або дієслова, які є більш поширеними у 2005–2010 роках, ніж раніше).
Одноетапне порівняння колокацій споріднених слів, щоб вивчити семантичні або культурні відмінності між словами (наприклад, порівняння колокатів 'small' (малий), 'little' (маленький), 'tiny' (крихітний), 'miniscule' (мініатюрний), 'lilliputian' (ліліпут); або 'Democrats' (демократи) та 'Republicans' (республіканці); або 'men' (чоловіки) та 'women' (жінки)).
Користувачі можуть включати семантичну інформацію з тезаурусу на 60 000 записів безпосередньо як частину синтаксису запиту (наприклад, частіше синонімами слова 'beautiful' (красивий), 'strong' (сильний) користуються у ТБ/субтитрах фільмів та художній літературі, але не в академічній літературі).
Пошук слова 'away' за вимовою, в результаті отримуємо слова-рими до нього.

Корисним також є список із найпопулярніших 60 000 слів (лем), який містить багато інформації про кожне. Якщо слово знаходиться на ~ 5000-му місці, то воно частовживане, якщо ~ 25 000-му - середньовживане, і якщо ~ 45 000-му - рідковживане. До кожного слова користувач може послухати правильну вимову, подивитись відео з ним у тексті, знайти пов'язані картинки в Google Images та перекласти на бажану мову. Корпус надає можливість шукати у 60 000-му списку слово за вимовою, це є дуже зручно, через складність написання англійських слів (наприклад, при пошуку двоскладового слова з наголосом на другому складі 'away' ми отримуємо в результаті слова, які римуються із заданим 'today' - 'suvey' - 'display'...).
Крім цього користувачі можуть створювати свої «індивідуальні» списки слів, а потім повторно використовувати їх, як частину наступних запитів (наприклад, списки, пов’язані з певною семантичною категорією (одяг, їжа, емоції), або визначеною користувачем частиною мови).
Зверніть увагу, що корпус доступний лише через веб-інтерфейс через обмеження авторських прав.

Пов'язані[ред. | ред. код]

Корпус Global Web-based English [Архівовано 2 квітня 2022 у Wayback Machine.] (GloWbE; вимовляється 'globe' [glowb]) містить близько 1,9 мільярда слів з текстів різних двадцяти країн. Це робить його приблизно в 100 разів більшим за інші корпуси, як-от Міжнародний корпус англійської мови, і дозволяє здійснювати багато типів пошуку, які були б неможливі в іншому випадку. На додаток до цього онлайн-інтерфейсу ви також можете завантажити повнотекстові дані з корпусу.

Корпус Global Web-based English [Архівовано 2 квітня 2022 у Wayback Machine.] унікальний тим, що дозволяє проводити порівняння між різними видами англійської мови та пов'язаний з багатьма іншими корпусами. ^[4]

Дивись також[ред. | ред. код]

Бібліографія[ред. | ред. код]

Davies, Mark (2010). The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English. Literary and Linguistic Computing. 25 (4): 447—65. doi:10.1093/llc/fqq018.
Bennett, Gena R. (2010). Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. с. 144. ISBN 978-0-472-03385-0.
Davies, Mark (2010). More than a peephole: Using large and diverse online corpora. International Journal of Corpus Linguistics. 15 (3): 405—11. doi:10.1075/ijcl.15.3.13dav.
Anderson, Wendy; Corbett, John (2009), Exploring English with Online Corpora, Palgrave Macmillan, с. 205, ISBN 978-0-230-55140-4
Davies, Mark (2009). The 385+ Million Word Corpus of Contemporary American English (1990–present). International Journal of Corpus Linguistics. John Benjamins Publishing Company. 14 (2): 159–190(32). doi:10.1075/ijcl.14.2.02dav.
Lindquist, Hans (2009). Corpus Linguistics and the Description of English. Edinburgh University Press. ISBN 978-0-7486-2615-1.
Davies, Mark (2005). The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation. International Journal of Corpus Linguistics. John Benjamins Publishing Company. 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav.

Посилання[ред. | ред. код]

↑ Milana, Prior (2021). A Comparative Corpus Study on Intensifier Usage across Registers in American English.
↑ Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU). www.mark-davies.org. Архів оригіналу за 18 квітня 2022. Процитовано 9 листопада 2021.
↑ Kauhanen, Henri (21 березня 2011). The Corpus of Contemporary American English: Background and history. VARIENG. Архів оригіналу за 12 січня 2012. Процитовано 13 жовтня 2011.
↑ Corpus of Web-Based Global English. www.english-corpora.org. Архів оригіналу за 2 квітня 2022. Процитовано 18 грудня 2019.

Зовнішні посилання[ред. | ред. код]

Офіційний сайт

[:0-1] Milana, Prior (2021). A Comparative Corpus Study on Intensifier Usage across Registers in American English.

[:2-2] Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU). www.mark-davies.org. Архів оригіналу за 18 квітня 2022. Процитовано 9 листопада 2021.

[3] Kauhanen, Henri (21 березня 2011). The Corpus of Contemporary American English: Background and history. VARIENG. Архів оригіналу за 12 січня 2012. Процитовано 13 жовтня 2011.

[4] Corpus of Web-Based Global English. www.english-corpora.org. Архів оригіналу за 2 квітня 2022. Процитовано 18 грудня 2019.

[1]

[2]

[3]

[4]