06.05.2023
Со 2 по 6 мая 2023 года на базе факультета математики и компьютерных наук СОГУ ежедневно с 10:00 до 14:00 была проведена третья сессия проектной IT-школы «Машинное обучение». Школа была проведена в формате воркшопов с разбором кейсов по машинному обучению.
Для участия в Школе по достижениям и мотивационным письмам было отобрано 19 студентов факультета математики и компьютерных наук СОГУ: 4 — 1-го курса, 2 — 2-го курса, 10 — 3-го курса, 3 — 4-го курса. Практически все участники имели опыт работы с языком программирования Python. Треть студентов принимали участие в IT-школах во время первой (2021 г.) и второй сессий (2022 г.).
Первый учебный день был посвящен методам NLP (Natural Language Processing — обработка естественного языка), основанным на правилах. После введения в компьютерную лингвистику, были рассмотрены этапы предварительной обработки текста, изучены инструменты из библиотек NLTK (ведущая платформа для создания NLP-программ на Python), Spacy (open-source библиотека для NLP) и Natasha (открытая библиотека для извлечения структурированной информации из текстов на русском языке). Далее были разобраны учебные примеры по токенизации, стеммингу и лемматизации и построен простейший метод генерации текстов на основе статистики и морфологии. В конце каждого учебного дня выдавались задания по закреплению материала.
Второй день был посвящен статистическим моделям NLP, посвященным проверке орфографии и улучшению методов генерации текстов. После предварительного обзора существующих spellchecker-ов (программы, которые находят и исправляют опечатки в тексте) и знакомства с метриками качества NLP моделей были изучены модели, использующие Национальный корпус русского языка (https://ruscorpora.ru/search): базовый алгоритм проверки орфографии, биграммные модели поиска и исправления ошибок, генерация текста на основе n-граммных моделей.
Третий учебный день был посвящен embedding (представление слова или предложения в виде набора чисел или вектора) и простым нейронным сетям. Студентов познакомили с N-граммными моделями типа FastText, различными способами представления токенов в виде числовых векторов, а также с особенностями embedding.
Четвертый день был посвящен LLM (Large Language Models — большие языковые модели). Введение в теорию LLM началось со знакомства с платформой Hugging Face (коллекция готовых современных предварительно обученных Deep Learning моделей) и библиотекой Transformers (архитектура нейросетей с инструментами и интерфейсами для простой загрузки и использования LLM). На учебных примерах были изучены основы наиболее популярных LLM: GPT-3, BERT, BLOOM. В продолжение исследования методов корректной генерации текстов и исправления ошибок была построена и дообучена модель конвертации видео-лекций в текстовый формат, состоящая из следующих этапов: конвертация видео формата в аудиодорожку, распознавание аудио и перевод в текстовый формат, исправление текста.
В заключительный день школы были проведены защиты проектов. В ходе школы были сформированы 6 команд по 2-3 человека. В результате защиты были отмечены три команды.
Лучший проект команды “Бæллицаг гæдытæ” в составе 2 студентов 3 курса Цаболова Станислава и Гутнова Сослана и студентки 2-го курса Дзуцевой Ланы посвящен попытке создания системы исправления ошибок с учетом контекста. Ими были использованы подходы, основанные на статистических моделях и нейронных сетях.
Вторым признан проект самых младших участников школы команды “Капибары” студентов 1-го курса Игитян Анастасии и Роговецкого Романа и студента 2-го курса Лалиева Давида. Они выбрали себе задачу парсинга текстов с сайта ironau.ru, что позволило создать хоть небольшую, но все же базу или корпус текстов на осетинском языке, которые можно использовать в других проектах.
Тройку лидеров завершает проект “Генерация песен на осетинском языке, разработанный командой третьекурсников “Персики” Чакаловым Владимиром, Маргиевым Эриком и Корчагиным Владимиром. Им пришлось собрать вручную все найденные ими песни тексты песен, но этих данных не хватило. Пришлось добавить осетинскую поэзию. Но серьезных результатов на этих данных достичь не удалось.
Экспертами была отмечена очень важная работа команды четверокурсников, которые разработали простейшую библиотеку, содержащую стоп-слова для осетинского языка, без использования которых не обходится ни одно современное исследование в прикладной лингвистике.
Еще одной необычной работой стало создание клавиатуры для осетинского языка на основе Яндекс-клавиатуры. Создавали ее три третьекурсника Танделов Эльбрус, Джикаев Станислав и Дзебоев Арсен.
Три победившие команды были награждены курсами по программированию от Школы BEEGEEK (Иосифа Дзеранова) на открытой образовательной платформе Stepik:
https://stepik.org/org/beegeek
Список команд и проектов Школы: https://docs.google.com/spreadsheets/d/13nKtgFwRY6fyyodDlYtSe9djl3OjUAtx-YmwrcUfpDc/edit#gid=1423130068
Информационное письмо: https://drive.google.com/file/d/1NN5iStlSDlplAxSNwDBbtpS87pTQ3EIG/view?usp=share_link
Альбом с фото IT-школы: https://vk.com/album-57895109_292950469