Корпус розмовної англійської мови

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Корпус розмовної англійської мови (SEC від англ. Spoken English Corpus) — це лінгвістичний корпус записів розмовної британської англійської мови, складений протягом 1984—1987 років. Посібник з корпусу можна знайти у Міжнародному комп'ютерному архіві сучасної та середньовічної англійської мови (ICAME).[1]

Історія[ред. | ред. код]

Проект Корпусу розмовної англійської мови (SEC) у 1984—1985 роках розроблявся у співпраці Фондом гуманітарних досліджень Ланкастерського університету та IBM UK Ltd, а згодом тільки IBM UK Ltd. Розробкою займалися підрозділ комп'ютерних досліджень англійської мови у Ланкастерському університеті на чолі з Джеффрі Лічем та Науковий центр IBM у Вінчестері на чолі з Джеффрі Кейем. Фінансування надавало IBM.[2]

Матеріал корпусу[ред. | ред. код]

Корпус складається з 53 записаних уривків, переважно взятих з BBC, що вимовляються з акцентом, який зазвичай називають англійською літературною вимовою. Збірка охоплює такі категорії: коментарі, трансляція новин, лекції, діалоги, поезія, пропаганда.[3] Корпус містить 52 637 слів на 339 хвилин. Склад корпусу описала Літа Тейлор у своїй статті 1996 року «The Compilation of the Govored English Corpus».[4]

Категорія Слів %
Коментарі 9066 17
Трансляція новин 5235 10
Лекції на широку аудиторію 4471 8
Лекції на обмежену аудиторію 7451 14
Релігійне мовлення, включаючи літургію 2043 4
Репортаж у журнальному стилі 4170 9
Художня література 7299 14
Поезія 1292 2
Діалоги 6826 13
Пропаганда 1432 3
Інше 3352 6
Разом 52637 100

[5]

Транскрибування[ред. | ред. код]

Для транскрибування інтонації записаного матеріалу було розроблено певну систему. Двоє транскрибаторів, Джеррі Ноулз і Брайоні Вільямс, за підтримки Літи Тейлор, проаналізували весь корпус. Систему транскрибування пояснив Б. Вільямс[6], а Брайан Пікерінг провів експеримент, щоб оцінити ступінь узгодження у роботі обох транскрибаторів щодо частини корпусу, що містить близько 1000 тонів.[7] Ступінь узгодження був високий.

Важливою властивістю сучасного корпусу є те, що він може оброблятися комп'ютером: наразі корпус, як правило, розміщується на жорсткому диску, а не на книжковій полиці. Представляючи корпус у книжковій формі, автори враховували потреби корпусних лінгвістів старого зразка, а також тих, хто ще не знайомий з корпусами. Будь-хто, у кого є корпус на диску, може зробити друковані копії більшості файлів, але без спеціального шрифту для друку просодичних символів тексти транскрипції будуть непридатні для друку або читання. З цієї причини для публікації обрано саме просодичний варіант.

Вся транскрипція у нинішньому друкованому вигляді була зроблена Пітером Олдерсоном, який пізніше обійняв посаду менеджера з дослідження мовлення в IBM. Згодом том був названий «Корпус формального британського англійського мовлення: розмовний англійський корпус Ланкастер/IBM» і вперше опублікований Лонгманом у 1996 році, пізніше Routledge у 2013 році. Наразі книга доступна в онлайн-книгарнях, включаючи Routledge і Book Depository, або в електронному форматі у Google Play Books.[8][9]

Інші особливості[ред. | ред. код]

Граматичні позначки до кожного слова на основі тегів CLAWS1 було додано до тексту SEC.[10][11] Той факт, що тегування було у машиночитній формі, дозволяв співвідносити граматичну та просодичну інформацію в текстах. Надалі у роботі використовувалися ймовірнісні моделі для розвитку граматичних тегів і автоматизації синтаксичного аналізу.[12]

Енн Віхманн опублікувала своє дослідження про інтонацію SEC «Інтонація в тексті та дискурсі: початок, середина та кінець» у 2000 році.[13]

Машиночитний корпус розмовної англійської мови (MARSEC)[ред. | ред. код]

Хоча текст і пов'язані з ним теги існували у машиночитній формі, самі записи існували лише у магнітофонному вигляді. Співпраця між науковцями з університетів Ланкастера та Лідса у Сполученому Королівстві, яка фінансувалася Радою економічних і соціальних досліджень у 1992—1994 роках, мала на меті створити версію корпусу, що містила би записи в цифровій формі.[14] Головними дослідниками були Джеррі Ноулз і Тамаш Вараді (Ланкастер), Пітер Роуч і Саймон Арнфілд (Лідс). Схему проекту виклав Ноулз.[15] Оцифровані записи були записані на CD-ROM. Пізніше диск зробили доступним для завантаження в дослідницьких цілях з Університету Лідса (цієї функції більше немає).[16]

Aix-MARSEC[ред. | ред. код]

Робота над MARSEC в Ланкастері та Лідсі була завершена приблизно в 1995 році, але згодом корпус значно розвинувся в Університеті Екс-ан-Прованс у Франції, під керівництвом Деніеля Херста.[17] Зараз база даних складається з двох основних частин: оцифрованих записів від MARSEC та лінгвістичної розмітки. Розмітку здійснено на дев'яти рівнях, включаючи фонеми, склади, слова, наголоси, одиниці ритму та другорядні й головні одиниці мовлення. Незабаром будуть інтегровані два додаткові рівні: граматична розмітка від CLAWS і система граматичних властивостей, розроблена в Екс-ан-Прованс.[18] Можливим недоліком такої доробки є те, що пошук у корпусі можна здійснювати лише за допомогою спеціально написаних скриптів.[19]

Примітки[ред. | ред. код]

  1. "MANUAL OF INFORMATION TO ACCOMPANY THE SEC CORPUS". korpus.uib.no. Архів оригіналу за 8 березня 2022. Процитовано 15 жовтня 2020.
  2. Leech, Geoffrey. (1996). "The Spoken English Corpus in its context." Foreword. Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with speech. Longman. ISBN 9780582045347.
  3. Xiao, Richard; Tono, Yukio (2006). MacEnery, Tony (ed.). Corpus-Based Language Studies: An Advanced Resource Book. Taylor & Francis. с. 63. ISBN 9780415286220. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
  4. Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 20—37. ISBN 9780582045347.
  5. 7.2. SEC, MARSEC and Aix-MARSEC. Архів оригіналу за 1 квітня 2022. Процитовано 17 квітня 2022.
  6. Williams, Briony. (1996). "The formulation of an intonation transcription system for British English." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 38—57. ISBN 9780582045347.
  7. Pickering, Brian. (1996). "Analysis of transcriber differences in the SEC." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 61—86. ISBN 9780582045347.
  8. "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus (Paperback) - Routledge". Routledge.com. Процитовано 2018-07-22. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
  9. "A Corpus of Formal British English Speech : Gerald Knowles : 9781138457768". www.bookdepository.com. Архів оригіналу за 30 січня 2019. Процитовано 30 січня 2019.
  10. Taylor, Lita. (1996). "The Compilation of the Spoken English Corpus." Knowles, Gerard; Wichmann, Anne; Alderson, Peter, eds. (1996). Working with Speech. Longman. с. 30. ISBN 9780582045347.
  11. https://ucrel.lancs.ac.uk/claws1tags.html. ucrel.lancs.ac.uk. Retrieved 2020-10-15. Архів оригіналу за 19 квітня 2021. Процитовано 17 квітня 2022.
  12. Sampson, Geoffrey. (1987). "Probabilistic models of analysis." Garside, Roger; Sampson, Geoffrey; Leech, Geoffrey (1987). The Computational Analysis of English. Longman. ISBN 9780582291492.
  13. "Intonation in Text and Discourse: Beginnings, Middles and Ends". Routledge & CRC Press. Архів оригіналу за 17 квітня 2022. Процитовано 15 жовтня 2020.
  14. Roach, P., Knowles, G., Varadi, T. and Arnfield, S. (1994) "MARSEC: a MAchine-readable Spoken English Corpus". Journal of the International Phonetic Association. 23 (2). с. 47—54. ISSN 0025-1003.
  15. Knowles, G. "Converting a corpus into a relational database: SEC becomes MARSEC" Geoffrey, Leech; Myers, Greg; Thomas, Jenny (1995). Spoken English on Computer. Longman. с. 208—219. ISBN 9780582250215.
  16. "MARSEC: The Machine Readable Spoken English Corpus". www.reading.ac.uk. Архів оригіналу за 21 січня 2022. Процитовано 15 жовтня 2020.
  17. Hirst, Daniel; De Looze, Céline; Auran, Cyril; Bouzon, Caroline (27 July 2010). "Aix-MARSEC database". Архів оригіналу за 23 січня 2010. Процитовано 15 квітня 2013..
  18. Auron, Cyril; Bouzon, Caroline (2003). "Phonotactique prédictive et alignement automatique : application au corpus MARSEC et perspectives". Predictive phonotactics and automatic alignment: application in the MARSEC corpus and prospects. ravaux interdisciplinaires du laboratoire parole et langage d'Aix-en-Provence (in French). Publications de l'Université de Provence. 22: 33–63. Retrieved 15 April 2013. Архів оригіналу за 17 квітня 2022. Процитовано 17 квітня 2022.
  19. Wichmann, Anne "Speech corpora and spoken corpora" Ludeling, Anke; Kyto, Merja (2006). Corpus Linguistics 1. Walter de Gruyter. с. 200. ISBN 9783110180435.