Паралельний текст

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Парале́льний текст (бітекст) – це текст однією мовою разом з його перекладом на іншу мову. "Вирівнювання паралельного тексту" – це ідентифікація відповідних один одному речень в обох половинах паралельного тексту. Великі збірки паралельних текстів називаються "паралельним корпусом" (англ. parallel corpora). Вирівнювання паралельного корпусу на рівні речень є необхідною передумовою для різних аспектів лінгвістичних досліджень. У процесі перекладу речення можуть розділятися, зливатися, видалятися, вставлятися або змінювати свою послідовність. У зв’язку з цим вирівнювання часто стає складним завданням.

Бітекст[ред.ред. код]

У сфері наукових досліджень проблем перекладу "бітекст" – це суміщений документ, що складається з версій відповідного тексту на оригінальній мові і на цільовій мові. Бітексти створюються за допомогою спеціальних комп’ютерних програм, котрі називаються "інструментами по вирівнюванню" (alignment tool) або "інструментами для бітексту" (bitext tool). Такі програми дозволяють автоматично вирівнювати оригінальну версію тексту та його переклад. Вони, як правило, узгоджують два тексти (оригінал та переклад) по кожному реченню. Збірка бітекстів зветься "бітекстова база даних" або "двомовним корпусом" і може використовуватися у якості довідника для пошуку потрібних словосполучень.

Історія[ред.ред. код]

Ідея бітексту належить Брайану Херісу (Brian Harris), котрий першим опублікував дослідження по даній концепції у 1988 році, і пізніше була розвинута групою вчених при Університеті Монреалю під назвою RALI ((Recherche appliquée en linguistique informatique или Applied Research in Computational Linguistics – "Прикладні дослідження у обчислювальній лінгвістиці"). Ця група складалася з програмістів та лінгвістів, що вивчали природне опрацювання тексту. Відомими промоутерами концепції бітексту вважаються Пьер Ізабель (Pierre Isabelle) та Клод Бедар (Claude Bédard).

Бітексти і пам'ять перекладів[ред.ред. код]

Ідея "бітексту" має багато спільного з концепцією пам'яті перекладів . Головна відмінність між ними у тому, що пам'ять перекладів являє собою базу даних, в якій текстові сегменти (відповідні один одному речення) розташовані таким чином, при якому вони не пов’язані з оригінальним текстом, тобто оригінальна послідовність речень втрачається. Що стосується бітексту, то він зберігає первісну послідовність речень. Стандартним форматом для обміну базами даних пам'яті перекладів між різними програмами автоматизованого перекладу є формат ТМХ (XML словник, надрукований LISA (Асоціація галузі локалізації - Localisation Industries Association). ТМХ дозволяє зберігати оригінальний порядок речень. Бітексти створюються у якості довідкового інструменту для консультацій спеціалістів-перекладачів, а не задля автоматизованих програм. Тому невеликі помилки вирівнювання або неточності, що можуть призвести до збоїв у пам'яті перекладів, у бітекстах не мають значення.

Паралельні корпуси в Інтернеті[ред.ред. код]

Дивіться також[ред.ред. код]

Джерела та посилання[ред.ред. код]

  1. Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga, 2006, The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006.

Документація[ред.ред. код]