用户名/邮箱
登录密码
验证码
看不清?换一张
您好,欢迎访问! [ 登录 | 注册 ]
您的位置:首页 - 最新资讯
Текстовая модель от SberDevices превзошла другие русскоязычные аналоги
2021-08-27 00:00:00.0     伦塔网军事频道-经济     原网页

       

       Разработанная SberDevices текстовая модель ruRoberta-large finetune стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку. Кроме того, в шестерку лидеров вошли еще 4 модели от SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune. Об этом ?Ленте.ру? сообщили в пресс-службе Сбера.

       Успешно обучив языковую модель ruBERT, в Сбере стали развивать ее более продвинутую версию — ruRoBERTa. Архитектурно это тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом батч-сайзе и с токенизатором BBPE от нейросети ruGPT-3. Обучение модели на суперкомпьютере ?Кристофари? заняло три недели, итоговый датасет (250 гигабайт текста) был похож на тот, что использовался для ruGPT-3, однако из него был удалён английский и часть ?грязного? Common Crawl.

       Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.

       Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления — диагностического датасета. Он отражает лингвистические феномены языка и показывает насколько модель ruRoberta-large finetune понимает те или иные его особенности. Высокий скор (LiDiRus) говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов русского языка.

       Каждая модель также оценивается посредством различных заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом ?да? или ?нет?, RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

       ?Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки мы разработали первый в своём роде лидерборд Russian SuperGLUE, который четко показывает прогресс в данной работе. Наша конечная цель — создание надежных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки?, — отметил исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока ?Технологии? Давид Рафаловский.

       


标签:军事
关键词: модель     finetune     русского языка     Russian SuperGLUE     текста    
滚动新闻