28 января в 18:00 в рамках иранистического семинара ИЯз РАН и НИУ ВШЭ состоится доклад Максима Меленченко и Марии Криволап ?Предсказание шугнанского рода с помощью методов машинного обучения?.
Аннотация
Доклад посвящён исследованию влияния различных факторов на приписывание рода (gender assignment) в шугнанском языке с помощью методов машинного обучения. Мы обучили несколько моделей предсказанию рода (женский/мужской) на датасете в 2390 существительных из шугнанско-русского словаря. В качестве ?предсказателей? для обучения использовались как семантические признаки (семантические классы и векторизованные русские словарные толкования), так и формальные (финали слов и последняя гласная основы). Результаты исследования показывают, что семантика играет главную роль в приписывании рода в шугнанском языке, так как выделенные нами семантические признаки правильно предсказывают род для ≈80% слов в нашей выборке. Формальные признаки менее значимы и правильно предсказывают род только для ≈70% существительных. Между этими типами признаков обнаруживается высокая корреляция (особенно для женского рода), поэтому их комбинация не приводит к значительному улучшению качества предсказаний.
Подробная информация доступна на сайте pamiri.online.