06.07.2024
С 1 по 6 июля 2024 года Научно-образовательный математический центр Северо-Осетинского государственного университета имени Коста Левановича Хетагурова в рамках реализации национального проекта «Наука и университеты» на базе факультета математики и компьютерных наук провел проектную школу по машинному обучению. Такая школа проводится уже в четвертый раз. В роли наставников школы выступили старший преподаватель Макаренко М.Д. и доцент Гутнова А.К.
Школа была проведена в формате воркшопов с разбором кейсов по машинному обучению. Для участия в Школе по достижениям и мотивационным письмам был отобран 21 студент факультета математики и компьютерных наук СОГУ: 4 студента с 1-го курса, 6 студентов со 2-го курса, 9 студентов с 3-го курса и 2 студента с 4-го курса. Практически все участники имели опыт работы с языком программирования Python, однако, ранее не участвовали в IT-школах 2021-2023 годов.
Первый учебный день был посвящен методам NLP (Natural Language Processing — обработка естественного языка), основанным на правилах. После введения в компьютерную лингвистику были рассмотрены этапы предварительной обработки текста, изучены инструменты из библиотек NLTK (ведущая платформа для создания NLP-программ на Python), Spacy (open-source библиотека для NLP) и Natasha (открытая библиотека для извлечения структурированной информации из текстов на русском языке). Далее были разобраны учебные примеры по токенизации, стеммингу и лемматизации и построен простейший метод генерации текстов на основе статистики и морфологии. В конце каждого учебного дня выдавались задания по закреплению материала.
Второй день был посвящен статистическим моделям NLP, посвященным проверке орфографии и улучшению методов генерации текстов. После предварительного обзора существующих spellchecker-ов (программы, которые находят и исправляют опечатки в тексте) и знакомства с метриками качества NLP моделей были изучены модели, использующие Национальный корпус русского языка (https://ruscorpora.ru/search): базовый алгоритм проверки орфографии, биграммные модели поиска и исправления ошибок, генерация текста на основе n-граммных моделей. В качестве практического занятия был построен spellchecker на основе алгоритма Норвига.
Третий учебный день был посвящен embedding (представление слова или предложения в виде набора чисел или вектора) и простым нейронным сетям. Студентов познакомили с n-граммными моделями типа Word2Vec и FastText, различными способами представления токенов в виде числовых векторов, а также с особенностями embedding.
Четвертый день был посвящен LLM (Large Language Models — большие языковые модели). Введение в теорию LLM началось со знакомства с платформой Hugging Face (коллекция готовых современных предварительно обученных Deep Learning моделей) и библиотекой Transformers (архитектура нейросетей с инструментами и интерфейсами для простой загрузки и использования LLM). На учебных примерах были изучены основы наиболее популярных LLM: GPT-3, BERT, BLOOM. В продолжение исследования методов корректной генерации текстов и исправления ошибок была построена и дообучена модель конвертации видеолекций в текстовый формат, состоящая из следующих этапов: конвертация видео формата в аудиодорожку, распознавание аудио и перевод в текстовый формат, исправление текста.
В заключительный день школы были проведены защиты проектов. В ходе школы были сформированы 7 команд по 1-4 человека. В результате защиты были отмечены три команды.
Лучший проект команды “Капибары” в составе 2 студентов 2 курса Роговецкой Анастасии и Роговецкого Романа посвящен созданию телерамм-бота обучающей системы грамматики осетинского языка. Система способствует также формированию датасета параллельных текстов: при проверке усвоенных знаний требуется ввести предложение на осетинском языке после прослушивания аудиофайла.
Вторым признан проект самой многочисленной команды участников “Нож в спину” студентов 3-го курса Лалиева Давида, Черджиева Арсена, Хугаева Георгия и Шелковина Александра. Они выбрали себе задачу разработки spellchecker-а осетинского языка на основе n-граммной модели. Участники реализовали алгоритм контекстного выбора замены слова.
Тройку лидеров завершает проект команды “Горыныч” в составе Дзодзикова Артура, Петрова Сергея и Окроева Александра. Они реализовали систему распознавания диалекта осетинского языка на основании введенного текста. Для реализации этой задачи ребята построили модель логистической регрессии, предварительно проведя обработку датасета.
Остальные участники тоже постарались и разработали полезные проекты: частотный словарь текста на осетинском языке, генерация всевозможных словоформ русского языка, автоматическая проверка параллельных текстов.
Три победившие команды были награждены конвертами по 10 000 рублей.
Список команд и проектов Школы: https://docs.google.com/spreadsheets/d/1vGGRwkPldn5dFQLsRmZ1Y7MI63l-1LUyVzZr45t1nvU/edit?usp=drive_link
Информационное письмо: https://drive.google.com/file/d/1pXbJHebVnESxc1MPh8MGmyEErlO7qLlN/view?usp=drive_link
Альбом с фото IT-школы: https://vk.com/album-57895109_303604265