Міжнародний корпус англійської мови

Міжнародний корпус англійської мови (ICE, англ. International Corpus of English) — набір лінгвістичних корпусів, що представляють різновиди англійської мови з усього світу. Учасниками є понад двадцять країн або груп країн, де англійська є офіційною першою або другою мовою.

ICE (Міжнародний корпус англійської мови) був започаткований для надання ресурсів для порівняльних досліджень англійської мови, які використовуються в країнах, де мова більшості населення є офіційною першою або другою мовою. Очікується, що національні або регіональні корпуси, які становлять компоненти ICE, відповідатимуть визначеному загальному дизайну.

Історія[ред. | ред. код]

Британський дослідник англійської мови та лінгвістики Сідні Грінбаум мав на меті зібрати корпуси, які б порівнювали синтаксис національних різновидів англійської мови з усього світу. Його ціль була реалізована професором Чарльзом Ф. Мейєром у проекті ICE. Сідні Грінбаум очікував, що міжнародні групи дослідників зберуть національні варіації для порівняння письмової та усної англійської мови.^[1] Такими варіаціями мали стати британська англійська, американська англійська та індійська англійська, що представлялися б через комп’ютерні корпуси.^[1] Корпуси використовуються дослідниками для порівняння синтаксису різновидів англійської мови.^[2] Завершення корпусів ICE означало б всебічний лінгвістичний аналіз різновидів англійської мови, які з’явилися.^[1] Постійні дослідження для ICE реалізуються міжнародними командами в різноманітних регіонах.^[1]

Проєкт розпочався в 1990 році, основною метою якого був збір матеріалу для порівняльних досліджень англійської мови з усього світу. Нині двадцять три дослідницькі групи, включаючи різні організації, такі як All Systems Go Marketing і New Spirit Services, по всьому світу готують електронні корпуси власного національного або регіонального різновиду англійської мови. Кожен корпус ICE складається з мільйона слів усної та письмової англійської мови, які виникли після 1989 року.^[3] Для більшості країн-учасниць проєкт ICE стимулює перше систематичне дослідження національної різноманітності. Щоб забезпечити сумісність між корпусами, кожна команда дотримується спільного дизайну корпусу, а також загальної схеми для граматичних анотацій.

Опис[ред. | ред. код]

Кожен корпус містить мільйон слів у 500 текстах по 2000 слів^[4] за методологією вибірки, яка використовується для Корпусу Брауна. На відміну від Брауна чи Корпусу Ланкастер-Осло-Берген (LOB) (або навіть мегакорпусів, таких як Британський національний корпус), більшість текстів отримано з усних даних.

Корпуси ICE вважаються дуже малими для сучасних стандартів, адже мають лише один мільйон слів на корпус.^[5] Корпуси ICE містять 60% (600 000 слів) орфографічно транскрибованої розмовної англійської мови. Батько проекту, Сідні Грінбаум, наполягав на першості розмовного слова, наслідуючи співпрацю Рендольфа Квірка та Яна Свартвіка над оригінальним корпусом Лондон-Лунд (LLC). Саме акцент на дослівній транскрипції виділяє ICE з багатьох інших корпусів, включаючи ті, що містять, наприклад, парламентські або юридичні перефрази.

Корпуси повністю складаються з даних 1990 року або пізніше. Всі дані були зібрані від дорослих осіб, які здобули щонайменше 13-річну освіту англійською мовою та/або народилися, або переїхали в ранньому віці до країни, до якої належать їхні дані.^[6]Представлені зразки мовлення та тексту чоловіків та жінок багатьох вікових груп, але на веб-сайті корпусу зазначено, що «пропорції, проте, не є репрезентативними для пропорцій населення в цілому: жінки не є однаково представлені в таких професіях, як політика та юриспруденція, і тому не створюють однакову кількість дискурсу в цих сферах».^[4] Були змоделювалі категорії учасників з точки зору професій за критеріями, які використовуються для збору даних ICE-Uganda, а саме: студентів, професіоналів (у цьому випадку викладачів англійської мови) та бізнес-спільноти. Багато корпусів зараз доступні для завантаження на офіційній веб-сторінці ICE, хоча для деяких потрібна ліцензія. Інші, однак, не готові до публікації.^[7]

Текстова та граматична анотація[ред. | ред. код]

Дослідники та лінгвісти дотримуються конкретних рекомендацій при анотуванні даних для корпусу, що можна знайти у Міжнародному корпусі посібників та документації з англійської мови. Існує три рівні анотації: розмітка тексту, тегування текстового класу, синтаксичний розбір.^[8]

Текстова розмітка[ред. | ред. код]

Оригінальна розмітка та макет, наприклад синтаксичний аналіз речень і абзаців, зберігаються, а спеціальні маркери вказують його як оригінальний. Умовні дані транскрибуються орфографічно з індикаторами коливань, фальстартів і пауз.^[8]

Позначення класу слів[ред. | ред. код]

Класи слів, які також називають частинами мови, — це граматичні категорії для слів, об'єднаних спільністю загального граматичного значення.

Британські тексти автоматично позначаються тегами для текстового класу за допомогою теггера ICE, розробленого в Університетському коледжі Лондона, який використовує всю граматику англійської мови.

Усі інші мови позначаються автоматично за допомогою тегів PENN Treebank і CLAWS. Хоча теги не виправляються вручну, їх якість регулярно перевіряють.^[8]

Синтаксичний розбір[ред. | ред. код]

Речення аналізуються автоматично і при необхідності виправляються вручну за допомогою ICECUP, редактора синтаксичного дерева, створеного спеціально для корпусу.

Синтаксичний аналіз залежностей також виконується автоматично за допомогою аналізатора залежностей Pro3GreS. Результати не перевіряються вручну.^[8]

ICECUP[ред. | ред. код]

ICECUP є програмою дослідження корпусу для граматично розібраних корпусів типу ICE-GB. Як і його попередник, ICECUP 3.1 використовує FTFs, щоб будувати граматичні запити. Пошуки одного слова у ICECUP дуже швидкі, оскільки такі запити були попередньо обчислені і зібрані.

Особливості ICECUP^[9]:

Мапа корпусу (огляд вікна корпусу)
Лексичні підстановки (спосіб задання лише частини слова у запиті)
FTFs (інтуїтивні граматичні запити; схожі на синтаксичні дерева)
Редактор FTFs
Граматика і конкорданс
Перегляд синтаксичних дерев і збігів FTFs (можливість використовувати синтаксичні дерева як основу для FTFs)
Створення FTFs з синтаксичних дерев (т. зв. «інструмент чарівника»)
Логіка перетягування (дозволяє поєднувати одразу декілька запитів і змінювати логічні стосунки між цими елементами)
Лексикон і граматика (спосіб перегляду запитів у корпусі як ієрархічної структури)
Статистичні таблиці (таблиці у карті корпусу можна використовувати, щоб дослідити, чи соціолінгвістичні варіації передбачають інші зміни; таблиці лексикону і граматики можна використовувати, щоб побачити, чи може лексичне та граматичне чергування передбачити соціолінгвістичну варіацію)
Відтворення звуку (завантажується окремо)

Пошук у ICECUP здійснюється по всьому корпусі, якщо не обрано конкретний підкорпус.

Структура корпусу[ред. | ред. код]

Нижче наведено підрозділи ICE з кількістю корпусів для кожної категорії та підкатегорії в дужках.^[6]

Усні (300)
Діалоги (180)	Приватні (100)	Розмови віч-на-віч (90) Телефонні дзвінки (10)
Діалоги (180)	Публічні (80)	Уроки в класі (20) Обговорення в ефірі (20) Інтерв’ю в ефірі (10) Парламентські дебати (10) Юридичні перехресні допити (10) Ділові операції (10)
Монологи (120)	Спонтанні (70)	Спонтанні коментарі (20) Незаписані промови (30) Демонстрації (10) Юридичні презентації (10)
Монологи (120)	Читані (50)	Новини мовлення (20) Трансляційні розмови (20) Нетрансляційні розмови (10)

Письмові (200)
Неопубліковні (50)	Студентське письмо (20)	Студентські реферати (10) Скрипти іспитів (10)
Неопубліковні (50)	Листи (30)	Соціальні листи (15) Ділові листи (15)
Опубліковані(150)	Академічне письмо (40)	Гуманітарні науки (10) Суспільні науки (10) Природничі науки (10) Технології (10)
	Популярні твори (40)	Гуманітарні науки (10) Суспільні науки (10) Природничі науки (10) Технології (10)
	Репортажі (20)	Новини преси (20)
	Навчальне письмо (20)	Адміністративні записи(10) Навички/хобі (10)
	Переконливі записи (10)	Редакційні статті для преси (10)
	Творче письмо (20)	Романи та оповідання (20)

Публікації[ред. | ред. код]

Існує ряд книг, опублікованих про Міжнародний корпус англійської мови, а також книги, які частково засновані на корпусах:^[10]

English in the Caribbean: Variation, Style and Standards in Jamaica and Trinidad (2014) by Dagmar Deuber
The Present Perfect in World Englishes: Charting Unity and Diversity (2014) by Valentin Werner
Mapping Unity and Diversity Worldwide: Corpus-based Studies of New Englishes (2012) by Marianne Hundt and Ulrike Gut
The Syntax of Spoken Indian English (2012) by Claudia Lange
Oxford Modern English Grammar (2011) by Bas Aarts
Adjunct Adverbials in English (2010) by Hilde Hasselgård
ICAME Journal No 34 (2010)
An Introduction to English Grammar (2009) by Sidney Greenbaum and Gerald Nelson
Word-Formation in New Englishes: A corpus-based Analysis (2008) by Thomas Biermeier
Special issue of World Englishes Volume 23 Number 2 (2004)
Exploring Natural Language: Working with the British component of the International Corpus of English (2002) by Gerald Nelson, Sean Wallis, and Bas Aarts
Comparing English Worldwide: The International Corpus of English (1996) by Sidney Greenbaum
Oxford English Grammar (1996) by Sidney Greenbaum

Учасники[ред. | ред. код]

Поточний список країн-учасниць (*= доступний):

Австралія
Камерун
Канада*
Східна Африка (Кенія, Малаві, Танзанія)*
Фіджі
Гана
Великобританія* (розібрано)
Гонконг*
Індія*
Ірландія*
Ямайка*
Мальта
Малайзія
Нова Зеландія*
Нігерія* (з тегами)
Пакистан
Філіппіни*
Сьєрра-Леоне
Сінгапур*
Південна Африка
Шрі Ланка
Тринідад і Тобаго
США*

Дивись також[ред. | ред. код]

Посилання[ред. | ред. код]

↑ ^а ^б ^в ^г The ICE Project (PDF). Архів оригіналу (PDF) за 13 лютого 2022. Процитовано 27 квітня 2022.
↑ Nelson, Gerald (May 2004). Introduction. World Englishes (англ.). 23 (2): 225—226. doi:10.1111/j.0883-2919.2004.00347.x. ISSN 0883-2919.
↑ International Corpus of English (ICE) Homepage @ ICE-corpora.net. Архів оригіналу за 1 квітня 2022. Процитовано 27 квітня 2022.
↑ ^а ^б International Corpus of English (ICE) Homepage @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 23 березня 2022. Процитовано 28 квітня 2022.
↑ Nelson, Gerald (2017). The ICE project and world Englishes. World Englishes (англ.). 36 (3): 367—370. doi:10.1111/weng.12276.
↑ ^а ^б Corpus Design @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 28 січня 2022. Процитовано 3 березня 2018.
↑ International Corpus of English (ICE) Homepage @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 1 квітня 2022. Процитовано 3 березня 2018.
↑ ^а ^б ^в ^г Annotation. www.ice-corpora.uzh.ch (англ.). Архів оригіналу за 16 березня 2022. Процитовано 29 березня 2018.
↑ ICECUP 3.1. www.ucl.ac.uk. Архів оригіналу за 19 квітня 2022. Процитовано 1 травня 2022.
↑ Publications @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 24 липня 2021. Процитовано 22 квітня 2018.

[:0-1] а ^б ^в ^г The ICE Project (PDF). Архів оригіналу (PDF) за 13 лютого 2022. Процитовано 27 квітня 2022.

[2] Nelson, Gerald (May 2004). Introduction. World Englishes (англ.). 23 (2): 225—226. doi:10.1111/j.0883-2919.2004.00347.x. ISSN 0883-2919.

[3] International Corpus of English (ICE) Homepage @ ICE-corpora.net. Архів оригіналу за 1 квітня 2022. Процитовано 27 квітня 2022.

[:1-4] а ^б International Corpus of English (ICE) Homepage @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 23 березня 2022. Процитовано 28 квітня 2022.

[5] Nelson, Gerald (2017). The ICE project and world Englishes. World Englishes (англ.). 36 (3): 367—370. doi:10.1111/weng.12276.

[:3-6] а ^б Corpus Design @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 28 січня 2022. Процитовано 3 березня 2018.

[7] International Corpus of English (ICE) Homepage @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 1 квітня 2022. Процитовано 3 березня 2018.

[:2-8] а ^б ^в ^г Annotation. www.ice-corpora.uzh.ch (англ.). Архів оригіналу за 16 березня 2022. Процитовано 29 березня 2018.

[9] ICECUP 3.1. www.ucl.ac.uk. Архів оригіналу за 19 квітня 2022. Процитовано 1 травня 2022.

[10] Publications @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 24 липня 2021. Процитовано 22 квітня 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]