Кудзусідзі

Кудзусідзі (яп. くずし字) — старовинний рукописний стиль письма японськими ієрогліфами. Наразі такий формат тексту є майже недоступним для прочитання людьми.

Історія

У перекладі кудзусідзі означає «символи, що розпадаються». Таке письмо часто зустрічається на японських гравюрах, мечах.^[1] Символи кудзусідзі використовували понад 1000 років (з 8 століття до початку 20-го), однак сьогодні його може прочитати менше 0,01 % населення світу. У 19 столітті Японія реформувала свою офіційну писемну мову і з часом кудзусідзі зник із вжитку, внаслідок чого мільйони документів японської культури та історії стали недоступними для більшості людей. Зміст великої кількості старовинних текстів японською мовою, написаних кудзусідзі, давно цікавив дослідників, які намагалися розшифрувати ці рукописи. Щоб розшифрувати ієрогліф, експерти посилаються на спеціалізовані словники для ідентифікації скорописних і напівскорописних знаків. Словники, призначені для розшифровки знаків стилю кудзусідзі, створені відповідно до правил. Для початку необхідно визначити лінію (елемент), з якого починається знак. Потім його знаходять в змісті словника або в його додатку, щоб розглянути всі можливі варіанти «трансформації» знаків складової абетки чи ієрогліфів.

Лише частина текстів кудзусідзі перекладена на сучасні символи кандзі. Вважають, що для того, щоб переписати тексти вручну, потрібно сотні років.^[2]^[3]

Розшифрування

Дослідники потребували комп'ютерні системи оптичного розпізнавання символів для транскрипції текстів кудзусідзі у сучасні символи кандзі. Щоб розв'язати цю проблему влаштували змагання, підготувавши k-MNIST набір даних, який містить 60 000 (28x28 для хіраґани та 68х68 для кандзі) чорно-білих зображень рукописних символів. Набір даних k-MNIST доступний на GitHub і Kaggle, та часто використовувався для хакатонів.^[4] Набір даних Kuzushiji включає символи як у кандзі (логографічна система, де кожен символ представляє слово або фразу (з тисячами символів)), так і в хіраґана (складова абетка, де слова будуються із складів (аналогічно алфавіту)) з 35 книг 18 століття.^[5]

За допомогою штучного інтелекту можливо перекласти тексти, до цього часу невідомі науковцям, що дає нові можливості дослідити невідомі джерела історичних даних. Станом на 2019 рік, машини навчилися розпізнавати до 95 % текстів.^[2] За іншими даними розшифровка текстів написана хіраґаною сягає вище 97 %.^[5]

Примітки

↑ Исаева, Виктория (2017). НАДПИСИ НА ХВОСТОВИКАХ ЯПОНСКИХ МЕЧЕЙ (ГРАФОСТИЛИСТИЧЕСКИЕ И ЛЕКСИКО–ГРАММАТИЧЕСКИЕ ОСОБЕННОСТИ). Санкт – Петербург: ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ – ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» (СПБГУ).
↑ ^а ^б 日本放送協会. AIで“くずし字”の解読に挑む. NHKニュース. Архів оригіналу за 13 листопада 2019. Процитовано 19 листопада 2019.
↑ Secrets of billions of ancient Japanese texts being uncovered by AI. www.9news.com.au. Архів оригіналу за 19 листопада 2019. Процитовано 19 листопада 2019.
↑ London, Main campus address: Imperial College; Campus, South Kensington; maps, Campus; in, information | About this site | This site uses cookies | Report incorrect content | Log. Engineering language solutions using neural networks | Imperial News | Imperial College London. Imperial News (англ.). Архів оригіналу за 11 липня 2019. Процитовано 19 листопада 2019. {{cite web}}: |first3= з пропущеним |last3= (довідка)
↑ ^а ^б Horev, Rani (14 грудня 2018). Kuzushiji-MNIST - Japanese Literature Alternative Dataset for Deep Learning Tasks. Medium (англ.). Процитовано 19 листопада 2019.

[1] Исаева, Виктория (2017). НАДПИСИ НА ХВОСТОВИКАХ ЯПОНСКИХ МЕЧЕЙ (ГРАФОСТИЛИСТИЧЕСКИЕ И ЛЕКСИКО–ГРАММАТИЧЕСКИЕ ОСОБЕННОСТИ). Санкт – Петербург: ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ – ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» (СПБГУ).

[:0-2] а ^б 日本放送協会. AIで“くずし字”の解読に挑む. NHKニュース. Архів оригіналу за 13 листопада 2019. Процитовано 19 листопада 2019.

[3] Secrets of billions of ancient Japanese texts being uncovered by AI. www.9news.com.au. Архів оригіналу за 19 листопада 2019. Процитовано 19 листопада 2019.

[4] London, Main campus address: Imperial College; Campus, South Kensington; maps, Campus; in, information | About this site | This site uses cookies | Report incorrect content | Log. Engineering language solutions using neural networks | Imperial News | Imperial College London. Imperial News (англ.). Архів оригіналу за 11 липня 2019. Процитовано 19 листопада 2019. {{cite web}}: |first3= з пропущеним |last3= (довідка)

[:1-5] а ^б Horev, Rani (14 грудня 2018). Kuzushiji-MNIST - Japanese Literature Alternative Dataset for Deep Learning Tasks. Medium (англ.). Процитовано 19 листопада 2019.

[1]

[2]

[3]

[4]

[5]

п о р Писемності
Абетки* (повністю фонетичні)	Лінійні: абетка Фрейзера^[en] • авестійська • басса^[en] • письмо Бейти Кук'ю^[en] • борама^[en] • булгарська • видима мова^[en] • вірменська • глаголиця • готська • греко-іберська^[en] • грецька • грузинська • скоропис Ґабельсберґера^[en] • скоропис Ґреґґа^[en] • дезеретська • скоропис Дуплоє^[en] • евбейська^[en] • еклектичний скоропис^[en] • ельбасанська^[en] • етруська • кавказько-албанська • каддарська^[en] • кирилиця • комі • коптська • латинська • лікійська • мандейська^[en] • маньчжурська^[en] • малоазійська • міжнародна фонетична • монгольське • неотифінаг • нко • огамічна • ол-чикі • османія • руни • тай-лу (нова)^[en] • давньотюркська • угорська • хангиль • Шоу Нелінійні: шрифт Брайля (гебрейський • корейський^[en]) • морські прапори • азбука Морзе • нью-йоркський шрифт для незрячих^[en] • оптичний телеграф • семафорна азбука • шрифт Муна
Абуґіди*	Індійські: ахомська^[en] • байбаїн • балійська • батакська^[en] • бенгальська • бірманська • брахмі • бухідська^[en] • варанґ-кшиті^[en] • гануно^[en] • грантха • ґуджараті^[en] • ґупта^[en] • ґурмукхі • деванаґарі • дхівес-акуру^[en] • каві^[en] • кадамба^[en] • кайтхі^[en] • калінґа^[en] • каннада • кхмерська • лаоське • лепча^[en] • лімбу^[en] • лонтара • малаялам • маніпурі • моді^[en] • мон • монгольська квадратна^[en] • паллава • наґарі^[en] • орія^[en] • ранджана^[en] • реджанґ^[en] • ренконґ^[en] • саураштра^[en] • сіддхам • силоті-наґрі • сингальська • сойомбо • сунданська • східнонаґарська^[en] • таґбанва^[en] • тай-ле^[en] • тайська • такрі^[en] • тамільська • телуґу^[en] • тибетська • тірхута • тохарська • чакма^[en] • чамська^[en] • шарада • яванська Інші: абетка Полларда^[en] • ефіопська • канадська складова • харошті • мероїтська • скоропис Бойда^[en] • скоропис Томаса^[en] • сора-сомпенґ^[en] • тана^[en] • японський шрифт Брайля
Ідеограми/Піктограми	ацтекське • бліс символи^[en] • донґба^[en] • жестопис • мікмак • нсібіді • танцювальне^[en]
Консонантні*	арабська • арамейська • давньоханаанська • єврейська • маніхейська^[en] • набатейська • пальмірська^[en] • пахлаві • південноарабська • самаритянська^[en] • сирійська • скоропис Пітмена^[en] • соґдійська^[en] • тифінаг • угаритська • фінікійська
Логографічні	Китайська писемність: традиційні китайські • спрощені китайські • ханча • хиньті^[en] • кандзі Похідні від китайської: киданське^[en] • танґутське^[en] • тином^[en] • чжуанське^[en] • чжурчженське^[en] Інші лого-силабічні: хетське • клинопис • мая • ї Лого-консонантні: демотичне • єгипетське • ієратичне Цифри: арабські • абджадія^[en] • грецькі • римські • старослов'янські • маянські
Напівскладові^[en]*	Повні: кельтиберське^[en] • іберійське (північносхідне)^[en] і іберійське (південносхідне)^[en] Розтягнуті: китанське (мале)^[en] • пагавмон^[en] • тартесське^[en] • чжуїнь
Складові*	афака • ваї • волеаї^[en] • давньоперський клинопис • ґеба • катакана • кіпрське • кпелле • лінійне письмо Б • манйоґана • менде^[en] • нюйшу • хіраґана • черокі • юґтунське^[en] • складове письмо ї
Загальні	Історія писемності • Гліф • Графема • Шифрування • Палеографія
* Примітка: Абетки, Абуґіди, Складові, Напівскладові і Консонантні писемності є підгрупами фонетичної писемності.

Кудзусідзі

Статус версії сторінки

Історія

Розшифрування

Примітки

Навігаційне меню

Кудзусідзі

Історія

Розшифрування

Примітки

Навігаційне меню

Пошук