Міжнародний корпус англійської мови
Міжнародний корпус англійської мови (ICE, англ. International Corpus of English) — набір лінгвістичних корпусів, що представляють різновиди англійської мови з усього світу. Учасниками є понад двадцять країн або груп країн, де англійська є офіційною першою або другою мовою.
ICE (Міжнародний корпус англійської мови) був започаткований для надання ресурсів для порівняльних досліджень англійської мови, які використовуються в країнах, де мова більшості населення є офіційною першою або другою мовою. Очікується, що національні або регіональні корпуси, які становлять компоненти ICE, відповідатимуть визначеному загальному дизайну.
Історія[ред. | ред. код]
Британський дослідник англійської мови та лінгвістики Сідні Грінбаум мав на меті зібрати корпуси, які б порівнювали синтаксис національних різновидів англійської мови з усього світу. Його ціль була реалізована професором Чарльзом Ф. Мейєром у проекті ICE. Сідні Грінбаум очікував, що міжнародні групи дослідників зберуть національні варіації для порівняння письмової та усної англійської мови.[1] Такими варіаціями мали стати британська англійська, американська англійська та індійська англійська, що представлялися б через комп’ютерні корпуси.[1] Корпуси використовуються дослідниками для порівняння синтаксису різновидів англійської мови.[2] Завершення корпусів ICE означало б всебічний лінгвістичний аналіз різновидів англійської мови, які з’явилися.[1] Постійні дослідження для ICE реалізуються міжнародними командами в різноманітних регіонах.[1]
Проєкт розпочався в 1990 році, основною метою якого був збір матеріалу для порівняльних досліджень англійської мови з усього світу. Нині двадцять три дослідницькі групи, включаючи різні організації, такі як All Systems Go Marketing і New Spirit Services, по всьому світу готують електронні корпуси власного національного або регіонального різновиду англійської мови. Кожен корпус ICE складається з мільйона слів усної та письмової англійської мови, які виникли після 1989 року.[3] Для більшості країн-учасниць проєкт ICE стимулює перше систематичне дослідження національної різноманітності. Щоб забезпечити сумісність між корпусами, кожна команда дотримується спільного дизайну корпусу, а також загальної схеми для граматичних анотацій.
Опис[ред. | ред. код]
Кожен корпус містить мільйон слів у 500 текстах по 2000 слів[4] за методологією вибірки, яка використовується для Корпусу Брауна. На відміну від Брауна чи Корпусу Ланкастер-Осло-Берген (LOB) (або навіть мегакорпусів, таких як Британський національний корпус), більшість текстів отримано з усних даних.
Корпуси ICE вважаються дуже малими для сучасних стандартів, адже мають лише один мільйон слів на корпус.[5] Корпуси ICE містять 60% (600 000 слів) орфографічно транскрибованої розмовної англійської мови. Батько проекту, Сідні Грінбаум, наполягав на першості розмовного слова, наслідуючи співпрацю Рендольфа Квірка та Яна Свартвіка над оригінальним корпусом Лондон-Лунд (LLC). Саме акцент на дослівній транскрипції виділяє ICE з багатьох інших корпусів, включаючи ті, що містять, наприклад, парламентські або юридичні перефрази.
Корпуси повністю складаються з даних 1990 року або пізніше. Всі дані були зібрані від дорослих осіб, які здобули щонайменше 13-річну освіту англійською мовою та/або народилися, або переїхали в ранньому віці до країни, до якої належать їхні дані.[6]Представлені зразки мовлення та тексту чоловіків та жінок багатьох вікових груп, але на веб-сайті корпусу зазначено, що «пропорції, проте, не є репрезентативними для пропорцій населення в цілому: жінки не є однаково представлені в таких професіях, як політика та юриспруденція, і тому не створюють однакову кількість дискурсу в цих сферах».[4] Були змоделювалі категорії учасників з точки зору професій за критеріями, які використовуються для збору даних ICE-Uganda, а саме: студентів, професіоналів (у цьому випадку викладачів англійської мови) та бізнес-спільноти. Багато корпусів зараз доступні для завантаження на офіційній веб-сторінці ICE, хоча для деяких потрібна ліцензія. Інші, однак, не готові до публікації.[7]
Текстова та граматична анотація[ред. | ред. код]
Дослідники та лінгвісти дотримуються конкретних рекомендацій при анотуванні даних для корпусу, що можна знайти у Міжнародному корпусі посібників та документації з англійської мови. Існує три рівні анотації: розмітка тексту, тегування текстового класу, синтаксичний розбір.[8]
Текстова розмітка[ред. | ред. код]
Оригінальна розмітка та макет, наприклад синтаксичний аналіз речень і абзаців, зберігаються, а спеціальні маркери вказують його як оригінальний. Умовні дані транскрибуються орфографічно з індикаторами коливань, фальстартів і пауз.[8]
Позначення класу слів[ред. | ред. код]
Класи слів, які також називають частинами мови, — це граматичні категорії для слів, об'єднаних спільністю загального граматичного значення.
Британські тексти автоматично позначаються тегами для текстового класу за допомогою теггера ICE, розробленого в Університетському коледжі Лондона, який використовує всю граматику англійської мови.
Усі інші мови позначаються автоматично за допомогою тегів PENN Treebank і CLAWS. Хоча теги не виправляються вручну, їх якість регулярно перевіряють.[8]
Синтаксичний розбір[ред. | ред. код]
Речення аналізуються автоматично і при необхідності виправляються вручну за допомогою ICECUP, редактора синтаксичного дерева, створеного спеціально для корпусу.
Синтаксичний аналіз залежностей також виконується автоматично за допомогою аналізатора залежностей Pro3GreS. Результати не перевіряються вручну.[8]
ICECUP[ред. | ред. код]
ICECUP є програмою дослідження корпусу для граматично розібраних корпусів типу ICE-GB. Як і його попередник, ICECUP 3.1 використовує FTFs, щоб будувати граматичні запити. Пошуки одного слова у ICECUP дуже швидкі, оскільки такі запити були попередньо обчислені і зібрані.
Особливості ICECUP[9]:
- Мапа корпусу (огляд вікна корпусу)
- Лексичні підстановки (спосіб задання лише частини слова у запиті)
- FTFs (інтуїтивні граматичні запити; схожі на синтаксичні дерева)
- Редактор FTFs
- Граматика і конкорданс
- Перегляд синтаксичних дерев і збігів FTFs (можливість використовувати синтаксичні дерева як основу для FTFs)
- Створення FTFs з синтаксичних дерев (т. зв. «інструмент чарівника»)
- Логіка перетягування (дозволяє поєднувати одразу декілька запитів і змінювати логічні стосунки між цими елементами)
- Лексикон і граматика (спосіб перегляду запитів у корпусі як ієрархічної структури)
- Статистичні таблиці (таблиці у карті корпусу можна використовувати, щоб дослідити, чи соціолінгвістичні варіації передбачають інші зміни; таблиці лексикону і граматики можна використовувати, щоб побачити, чи може лексичне та граматичне чергування передбачити соціолінгвістичну варіацію)
- Відтворення звуку (завантажується окремо)
Пошук у ICECUP здійснюється по всьому корпусі, якщо не обрано конкретний підкорпус.
Структура корпусу[ред. | ред. код]
Нижче наведено підрозділи ICE з кількістю корпусів для кожної категорії та підкатегорії в дужках.[6]
Діалоги (180) | Приватні (100) | Розмови віч-на-віч (90)
Телефонні дзвінки (10) |
Публічні (80) | Уроки в класі (20)
Обговорення в ефірі (20) Інтерв’ю в ефірі (10) Парламентські дебати (10) Юридичні перехресні допити (10) Ділові операції (10) | |
Монологи (120) | Спонтанні (70) | Спонтанні коментарі (20)
Незаписані промови (30) Демонстрації (10) Юридичні презентації (10) |
Читані (50) | Новини мовлення (20)
Трансляційні розмови (20) Нетрансляційні розмови (10) |
Неопубліковні (50) | Студентське письмо (20) | Студентські реферати (10)
Скрипти іспитів (10) |
Листи (30) | Соціальні листи (15)
Ділові листи (15) | |
Опубліковані(150) | Академічне письмо (40) | Гуманітарні науки (10)
Суспільні науки (10) Природничі науки (10) Технології (10) |
Популярні твори (40) | Гуманітарні науки (10)
Суспільні науки (10) Природничі науки (10) Технології (10) | |
Репортажі (20) | Новини преси (20) | |
Навчальне письмо (20) | Адміністративні записи(10)
Навички/хобі (10) | |
Переконливі записи (10) | Редакційні статті для преси (10) | |
Творче письмо (20) | Романи та оповідання (20) |
Публікації[ред. | ред. код]
Існує ряд книг, опублікованих про Міжнародний корпус англійської мови, а також книги, які частково засновані на корпусах:[10]
- English in the Caribbean: Variation, Style and Standards in Jamaica and Trinidad (2014) by Dagmar Deuber
- The Present Perfect in World Englishes: Charting Unity and Diversity (2014) by Valentin Werner
- Mapping Unity and Diversity Worldwide: Corpus-based Studies of New Englishes (2012) by Marianne Hundt and Ulrike Gut
- The Syntax of Spoken Indian English (2012) by Claudia Lange
- Oxford Modern English Grammar (2011) by Bas Aarts
- Adjunct Adverbials in English (2010) by Hilde Hasselgård
- ICAME Journal No 34 (2010)
- An Introduction to English Grammar (2009) by Sidney Greenbaum and Gerald Nelson
- Word-Formation in New Englishes: A corpus-based Analysis (2008) by Thomas Biermeier
- Special issue of World Englishes Volume 23 Number 2 (2004)
- Exploring Natural Language: Working with the British component of the International Corpus of English (2002) by Gerald Nelson, Sean Wallis, and Bas Aarts
- Comparing English Worldwide: The International Corpus of English (1996) by Sidney Greenbaum
- Oxford English Grammar (1996) by Sidney Greenbaum
Учасники[ред. | ред. код]
Поточний список країн-учасниць (*= доступний):
- Австралія
- Камерун
- Канада*
- Східна Африка (Кенія, Малаві, Танзанія)*
- Фіджі
- Гана
- Великобританія* (розібрано)
- Гонконг*
- Індія*
- Ірландія*
- Ямайка*
- Мальта
- Малайзія
- Нова Зеландія*
- Нігерія* (з тегами)
- Пакистан
- Філіппіни*
- Сьєрра-Леоне
- Сінгапур*
- Південна Африка
- Шрі Ланка
- Тринідад і Тобаго
- США*
Дивись також[ред. | ред. код]
Посилання[ред. | ред. код]
- ↑ а б в г The ICE Project (PDF). Архів оригіналу (PDF) за 13 лютого 2022. Процитовано 27 квітня 2022.
- ↑ Nelson, Gerald (May 2004). Introduction. World Englishes (англ.). 23 (2): 225—226. doi:10.1111/j.0883-2919.2004.00347.x. ISSN 0883-2919.
- ↑ International Corpus of English (ICE) Homepage @ ICE-corpora.net. Архів оригіналу за 1 квітня 2022. Процитовано 27 квітня 2022.
- ↑ а б International Corpus of English (ICE) Homepage @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 23 березня 2022. Процитовано 28 квітня 2022.
- ↑ Nelson, Gerald (2017). The ICE project and world Englishes. World Englishes (англ.). 36 (3): 367—370. doi:10.1111/weng.12276.
- ↑ а б Corpus Design @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 28 січня 2022. Процитовано 3 березня 2018.
- ↑ International Corpus of English (ICE) Homepage @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 1 квітня 2022. Процитовано 3 березня 2018.
- ↑ а б в г Annotation. www.ice-corpora.uzh.ch (англ.). Архів оригіналу за 16 березня 2022. Процитовано 29 березня 2018.
- ↑ ICECUP 3.1. www.ucl.ac.uk. Архів оригіналу за 19 квітня 2022. Процитовано 1 травня 2022.
- ↑ Publications @ ICE-corpora.net. ice-corpora.net. Архів оригіналу за 24 липня 2021. Процитовано 22 квітня 2018.