Кембриджський корпус англійської мови

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Кембриджський корпус англійської мови (англ. Cambridge English Corpus, абр. CEC) — це багатомільярдний корпус англійської мови, що містить як текстовий корпус, так і розмовні дані. Кембриджський корпус містить дані з низки джерел, включаючи письмову та розмовну, британську та американську англійську . CEC також містить Кембриджський навчальний корпус - корпус з 40 мільйонів слів, складений з екзаменаційних відповідей з англійської мови, написаних тими, хто вивчає її.

Корпус використовується для підготовки публікацій видавництва Кембриджського університету з викладання англійської мови, а також для досліджень у галузі корпусної лінгвістики . Наразі доступ обмежений для авторів та дослідників, що працюють над проектами та публікаціями видавництва Кембриджського університету, а також для дослідників Cambridge English Language Assessment[en]. [1]

Письмові дані[ред. | ред. код]

Кембриджський корпус англійської мови містить зразки сучасної письмової англійської мови, взяті з газет, журналів, романів, листів, електронної пошти, підручників, веб-сайтів та багатьох інших джерел.

Зразки усної мови[ред. | ред. код]

Кембриджський корпус англійської мови містить широкий спектр розмовної англійської, взятої з багатьох джерел, включаючи повсякденні розмови, телефонні дзвінки, радіопередачі, презентації, виступи, зустрічі, телевізійні програми та лекції.

Кембриджський навчальний корпус[ред. | ред. код]

Кембриджський навчальний корпус (англ. Cambridge Learner Corpus, абр. CLC) — це колекція екзаменаційних сценаріїв, написаних студентами, які вивчають англійську мову, створений у співпраці з Cambridge English Language Assessment[en]. CLC містить сценарії більше 180 000 студентів з близько 200 країн, що говорять 138 різними мовами, та постійно поповнюється. [2] На даний момент до нього включені наступні іспити:

Унікальною особливістю кембриджського навчального корпусу є система кодування помилок. Фахівці з мови виявляють та анотують помилки в екзаменаційних сценаріях. Це означає, що корпус можна використовувати для отримання інформації про частоту різних типів помилок, контексти, в яких вони допускаються, а також групи студентів, які зазнають туднощів у певних мовних областях. [3]

Автори ресурсів кембриджського викладання англійської мови[en] можуть використовувати цю інформацію для виявлення найпоширеніших помилок – наприклад, Cambridge Advanced Learner's Dictionary містить функції «Common mistake», які виділяють часті помилки учнів.

І навпаки, система кодування помилок також показує, чого можуть досягти учні на кожному рівні. Це є центральним елементом роботи English Profile[en], спільної програми для покращення вивчення, викладання та оцінювання англійської мови в усьому світі. Партнерами-засновниками програми є видавництво Кембриджського університету, Cambridge English Language Assessment[en], Кембриджський університет, Університет Бедфордшира[en], Британська Рада та English UK. Мета проекту - описати, що учні знають та вміють робити англійською мовою на кожному рівні Загальноєвропейських компетенцій (англ. Common European Framework of Reference, абр. CEFR). [4]

Спеціалізовані корпуси[ред. | ред. код]

Кембриджський корпус англійської мови містить ряд спеціалізованих корпусів:

Кембриджський корпус ділової англійської мови[ред. | ред. код]

Кембриджський корпус ділової англійської мови (англ. Cambridge Business English Corpus) є великою колекцією британської та американської ділової мови, включаючи звіти, документи та книги, що стосуються різних аспектів бізнесу, а також ділові розділи багатьох національних газет.

Кембриджський корпус ділової англійської мови також включає Корпус розмовної ділової англійської мови в Кембриджі та Ноттінгемі (англ. Cambridge and Nottingham Spoken Business English Corpus, абр. CANBEC), що є результатом спільного проекту між видавництвом Кембриджського університету та Університетом Ноттінгема . Це колекція записів англійської мови всіх розмірів - від великих транснаціональних компаній до невеликих партнерств. Він містить офіційні та неформальні зустрічі, презентації, телефонні розмови, бесіди за обідом, а також розмовну мову з інших ділових ситуацій.

Кембриджський корпус юридичної англійської мови[ред. | ред. код]

Cambridge Legal English Corpus містить книги, журнали та газетні статті, що стосуються права та юридичних процесів.

Кембриджський фінансовий англійський корпус[ред. | ред. код]

Кембриджський корпус юридичної англійської мови (англ. Cambridge Legal English Corpus) містить тексти, пов'язані з економікою та фінансами, включаючи провідні фінансові журнали та газети.

Кембриджський академічний англійський корпус[ред. | ред. код]

Кембриджський академічний англійський корпус (англ. Cambridge Academic English Corpus) містить письмове та усне академічне мовлення студентів та аспірантів різних навчальних закладів США та Великобританії, включаючи лекції, семінари, студентські презентації, журнали, есе та підручники.

Кембриджський і Ноттінгемський корпус дискурсу англійською мовою[ред. | ред. код]

Кембриджський і Ноттінгемський корпус дискурсу англійською мовою (англ. The Cambridge and Nottingham Corpus of Discourse in English, абр. CANCODE) — це колекція розмовної англійської мови, записаної в сотнях місць на Британських островах у найрізноманітніших ситуаціях (наприклад, невимушена розмова, спілкування, пошук інформації та дискусії). Корпус CANCODE є результатом спільного проекту між видавництвом Кембриджського університету та Університетом Ноттінгема.

У корпусі CANCODE близько п’яти мільйонів слів і є дуже багатим ресурсом для дослідників розмовної англійської мови. Однак дані мають певні обмеження. Більшість людей знали, що їх записують, вони спілкувалися в неформальних ситуаціях, наприклад, відпочиваючи вдома, з іншими людьми, які мають досить рівний соціальний статус. Це означає, що взаємодія, як правило, відбувається за взаємною згодою, тому в корпусі наявна мінімальна кількість конфліктів та змагальних обмінів думками. [5]

Кембридж-Корнельський корпус розмовної північноамериканської англійської мови[ред. | ред. код]

Кембридж-Корнельський корпус розмовної північноамериканської англійської мови (англ. Cambridge University Press/Cornell Corpus) є великою колекцією неформальних, високоінтерактивних, багатосторонніх розмов між членами сім'ї або друзями в Північній Америці. The Cambridge-Cornell corpus є результатом спільного проекту між видавництвом Кембриджського університету та Корнелльським університетом.

Кембриджський корпус розмовної північноамериканської англійської мови[ред. | ред. код]

Кембриджський корпус розмовної північноамериканської англійської мови[en] (англ. The Cambridge Corpus of Spoken North American English, абр. CAMSNAE) — це велика колекція розмовної американської англійської мови . Він включає записи людей, що займаються повсякденним життям – на роботі, вдома з сім’єю, у магазині, за їжею тощо.

Дивитися також[ред. | ред. код]

Посилання[ред. | ред. код]

  1. Cambridge International Corpus, http://www.cambridge.org/us/esl/catalog/subject/custom/item3637700/Cambridge-International-Corpus-Cambridge-International-Corpus/?site_locale=en_US [Архівовано 31 жовтня 2015 у Wayback Machine.]
  2. Cambridge Learner Corpus, http://www.cambridge.org/us/esl/catalog/subject/custom/item3646603/Cambridge-International-Corpus-Cambridge-Learner-Corpus/?site_locale=en_US [Архівовано 22 жовтня 2012 у Wayback Machine.]
  3. Diane Nicholls, http://ucrel.lancs.ac.uk/publications/CL2003/papers/nicholls.pdf [Архівовано 15 червня 2022 у Wayback Machine.]
  4. Council of Europe, CEFR levels,Archived copy. Архів оригіналу за 30 жовтня 2009. Процитовано 5 листопада 2009.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
  5. Carter (2004) Language and Creativity: The Art of Common Talk. London: Routledge.

Зовнішні посилання[ред. | ред. код]