13 апреля 2021 г. в 12:00 на открытом заседании семинара лаборатории исследования и сохранения малых языков Института языкознания РАН с докладом ?Использование программы Transkribus для расшифровки рукописей на малых языках: пример коллекции фольклора латышских цыган Яниса Лейманиса? выступит Наталья Викторовна Перкова (Уппсальский университет).
Аннотация доклада
Латышский цыганский (также лотфитка) — это функционирующий в основном в устной форме цыганский диалект, относящийся к северо-восточной группе. На нём говорят в Латвии (в основном в западной и центральной части страны), в Эстонии и на севере Литвы. Опубликованных текстов на лотфитке практически не существует: имеющиеся публикации в основном принадлежат перу Пауля Аристе, который собирал цыганские тексты в 1930-х и начале 1940-х (перед самой войной), но из его рукописного архива опубликовано всего несколько сказок (с переводами на эстонский, немецкий и английский в зависимости от публикации). В 1997 г. вышел довольно подробный словарь (Mānu?s, Neilands &Rudevi?s 1997) с небольшим грамматическим очерком на латышском. Из имеющихся современных публикаций можно назвать переводы цыганских сказок из сборника Сильвии Брице (Brice 1992), доступные на сайте pasakas.net вместе с аудиозаписями.
Янис Лейманис (1886-1950) — видный цыганский активист межвоенной Латвии. Будучи вовлеченным в общественную деятельность латышских цыган, он также был христианским миссионером и, среди прочего, подготовил перевод Евангелия от Иоанна на латышский цыганский. В 1930-е годы по поручению Латвийского фольклорного архива он собирал фольклор латышских цыган. Коллекция Лейманиса представляет собой 75 тетрадей (3 из них утрачены) и содержит около 500 фольклорных единиц разных жанров.
В докладе будет рассмотрена задача подготовки корпуса латышского цыганского на основе имеющихся источников. Подробно будет описан процесс расшифровки корпуса сначала на краудсорсинговой платформе garamantas.lv, а позднее — в программном обеспечении Transkribus, адаптированном для задач расшифровки рукописных текстов. На материале ранее расшифрованных текстов, а также отдельных дополнительно расшифрованных страниц, была сформирована выборка, на которой была обучена нейросетевая модель для расшифровки почерка Яниса Лейманиса. В докладе будет также рассказано о том, как сейчас построен дальнейший процесс расшифровки и вычитки текстов маленькой группой исследователей. В заключение будут затронуты перспективы создания корпуса латышского цыганского языка и некоторые связанные с этим проблемы.
Контактная информация
Федеральное государственное бюджетное учреждение науки Институт языкознания РАН
125009, Москва, Большой Кисловский пер. 1 стр. 1 (карта)
Тел.: (495) 690-35-85
Тел./Факс: (495) 690-05-28
E-mail: iling@iling-ran.ru
Facebook | Twitter | YouTube | RSS
Послать сообщение через форму обратной связи
? 2011–2020 ФГБУН Институт языкознания РАН
Перейти на старую версию сайта