MamayLM, передова мовна модель для української мови
Ми презентуємо MamayLM — найефективнішу практичну мовну модель для української мови, яка перевершує всі моделі схожих розмірів як в англійській, так і в українській мовах, та навіть здатна перевершити моделі, які є вдесятеро більші.
Ми з радістю оголошуємо про випуск MamayLM — новітньої LLM-моделі (великої мовної моделі), орієнтованої на українську мову. Завдяки своїм 9 мільярдам параметрів вона є економною у використанні ресурсів і може працювати на одній GPU, при цьому залишаючись ефективною як в українській, так і в англійській мовах. Модель демонструє потужні можливості, випереджаючи відкриті моделі аналогічного розміру в обох мовах, та гідно конкурує з набагато більшими моделями. MamayLM є результатом співпраці між дослідниками з INSAIT та ETH Zurich. Англійська версія цього блогу доступна тут.
MamayLM побудована на основі моделі Google Gemma 2 9B, яку INSAIT раніше використовував для розробки серії моделей BgGPT 2.0, згаданих у блозі від Google. Дотримуючись подібного підходу, але з удосконаленнями в тренуванні, злитті моделей, оцінки здібностей та використанні синтетичних даних, ми створили нову модель, яка є легкою, практичною, але дуже здатною розуміти й генерувати текст українською мовою, не тільки зберігши, а навіть покращивши можливості базової моделі. MamayLM адаптована до специфіки української мови, є експертом у рідній мові та культурних нюансах. Вона є потужною основою для створення додатків та їх інтеграції в державні установи — особливо в умовах, коли критично важливо зберігати конфіденційність даних (оскільки модель такого невеликого розміру може працювати локально) — а також для особистого використання за невеликої вартості.
Адаптація Gemma 2 до української мови
До створення MamayLM ми успішно адаптували сімейство моделей Gemma 2 до болгарської мови, завдяки нашим дослідженням у сфері мовного трансферу [1], а також наявним багатомовним можливостям Gemma 2. Тепер ми застосували подібний процес збору даних, безперервного початкового та інструкційного етапів тренування, з важливими покращеннями в різних аспектах, щоб адаптувати Gemma 2 9B до української мови, використавши загалом 75 мільярдів токенів українського та англійського тексту.
Для збирання тренувальних даних у початковій стадії ми використали загальнодоступні набори даних, зокрема FineWeb2, Malyuk, CulturaX, та українську Wikipedia. Ці дані були попередньо оброблені та відфільтровані для забезпечення чистоти. Ми застосували як точне, так і менш строге видалення дублікатів, щоб уникнути повторення між наборами даних, які здебільшого були зібрані з інтернету.
Під час початкового тренування ми використовували метод best-fit packing [13] для збирання текстових послідовностей на задану довжину контексту, зберігаючи структуру та зв’язність даних із мінімальними порушеннями. Такий підхід покращує навчання в контексті та посилює мовне міркування. Щоб уникнути “катастрофічного забування” англійської мови, ми включили невелику частку англомовних даних, зокрема англійську Wikipedia та Smoltalk [14].
Після тренування ми виокремили теми, пов’язані з історією та культурою України, що дозволило створити синтетичний набір даних у форматі запитання-відповідь українською мовою за допомогою дистиляції (передачі) знань з більш потужної моделі. Ми також використали власний розроблений LLM-фреймворк для перекладу спеціалізованих даних українською, що підвищило як кількість, так і якість даних українською мовою.
Набір даних для початкового навчання включає різноманітні відкриті джерела, зокрема Nemotron SFT dataset, OpenCoder (OPC) SFT dataset, Aya Collection та інші. Ми вдячні українській open-source спільноті, особливо авторам Spivavtor, UAlpaca, UA-Squad, Ukrainian StackExchange та UA-Lawyer QA, які значно посилили потенціал тренування моделей для української мови.
Ми також застосували спеціальну техніку злиття моделей, натхненну методом Layer Swapping [11], щоб більш вдало покращити мовні здібності нашої моделі. Додатково ми врахували результати досліджень щодо мовного дисбалансу та злиття моделей [1,12], які показують, як пропорції змішування даних у тренувальній збірці впливають на ефективність моделі.
Критерії якості для англійської та української мов
Ми оцінили MamayLM на низці стандартних англомовних бенчмарків (контрольних тестів), їхніх перекладених українських версіях, а також на спеціально зібраних українських тестах:
- ZNO [8]: обов’язкове тестування знань з української мови та літератури, математики та географії (ЗНО)
- Winogrande challenge [2]: тести на розуміння світу
- Hellaswag [3]: завершення/доповнення речень
- ARC Easy/Challenge [4]: тестування логічного мислення
- TriviaQA [5]: перевірка знань загальних фактів
- GSM-8K [6]: задачі з математики шкільного рівня
- MMLU [9]: перевірка знань з багатьох дисциплін
- IFEval [10]: тестування виконання інструкцій
Ми взялися за завдання знайти найкращий метод перекладу англомовних оцінювань якості моделі. Попри певні попередні спроби [7], ми виявили, що вони недостатньо якісні, тому це можна значно покращити. Було ідентифіковано дві основні проблеми: (1) розділення запитання й відповіді під час перекладу; (2) якість перекладу значною мірою залежить від few-shot підказок або додаткової перевірки виводу моделі. Щоб вирішити ці проблеми, ми розробили порядок дій перекладу, що зберігає контекст як запитань, так і відповідей. Він також використовує мультивибір і ранжування кандидатів на переклад для досягнення оптимального балансу між якістю машинного перекладу та необхідності ручної перевірки, забезпечуючи максимальну ефективність. Ми публікуємо всі перекладені тести українською мовою разом із релізом MamayLM у відповідному Github проекті. Незабаром також буде опубліковано деталі нашої нової системи перекладу.
Перевірка якості на завданнях Зовнішнього Незалежного Оцінювання (ЗНО)
Важливо зазначити, що, як показано на графіку нижче, MamayLM демонструє найвищий результат на іспитах ЗНО (Зовнішнє Незалежне Оцінювання) серед моделей подібного розміру, випереджаючи навіть значно більші моделі, зокрема Gemma2 27B, Llama 3.1 70B та Qwen 2.5 72B.
Порівняння з моделями схожих розмірів
Як показують графіки нижче, MamayLM перевершує всі моделі аналогічного розміру (до 13 мільярдів параметрів) за всіма бенчмарками. Це стосується як усіх англійських, так і українських тестів, завдяки особливому методу тренування MamayLM, описаному вище.
Оцінювання контрольних показників у порівнянні з більшими моделями
Ми також оцінили MamayLM у порівнянні з найсучаснішими LLM-моделями. Вражаюче, але наша модель перевершує моделі, що у 8 разів більші, за результатами різноманітних бенчмарків, включно з тими, що стосуються суто українських контекстів, як показано на графіку нижче.
Генеративна продуктивність у порівнянні з більшими моделями
Окрім контрольних тестів (бенчмарків), ми оцінили MamayLM за генеративною якістю на 500 складних запитаннях. Результати демонструють значну перевагу нашої моделі над набагато більшими LLM у двох аспектах: мовній якості згенерованого українського тексту та змістовності відповідей. Щоб уникнути упередженості та отримати найоб'єктивніші оцінки, ми використовували Gemini 2.0 Flash — модель, що відмінно працює з українською мовою та розуміє її культурні й лінгвістичні особливості.
Ми провели оцінювання на українських запитаннях і відповідях (QA), де наша модель показала кращі результати навіть у порівнянні з набагато більшими моделями, включаючи GPT-4o-mini.
Переваги MamayLM
У сучасному технологічному середовищі потреба в швидких, адаптивних та локально оптимізованих рішеннях стала особливо важливою. MamayLM — модель з 9 мільярдами параметрів — є відносно компактною, але стабільно перевершує моделі, що вдесятеро більші, як в англійській, так і в українській мовах. Її здатність працювати на одній GPU забезпечує швидку адаптацію, низькі експлуатаційні витрати та просте використання, що робить її особливо придатною для середовищ з обмеженими ресурсами та швидкоплинними вимогами.
Це створює значні переваги для українських місцевих бізнесів та державних установ, які можуть інтегрувати передові технології ШІ без надмірних витрат або складної інфраструктури, що зазвичай супроводжують великі системи. До того ж, завдяки своїм двомовним можливостям, модель має широкий спектр застосувань — зокрема в освіті та охороні здоров’я, де подолання мовних бар’єрів може мати значний вплив. Особливо важливо, що вона здатна оперативно відповідати на актуальні потреби України, збільшуючи якість надання послуг у критичних сферах.
Доступ до моделей та бенчмарків
Ми публікуємо стандартну та квантизовану версії MamayLM на платформі HuggingFace, а також надаємо детальний опис щодо їх використання для генерації тексту.
Якщо ви використовуєте нашу модель, ви можете процитувати нашу роботу:
@misc{MamayLM,
author = {Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin},
title = {MamayLM: An efficient state-of-the-art Ukrainian LLM},
year = {2025},
publisher = {INSAIT},
howpublished = {https://huggingface.co/blog/INSAIT-Institute/mamaylm}
}
Більше про INSAIT
INSAIT - це науково-дослідний інститут світового рівня в галузі комп’ютерних наук і штучного інтелекту, який є частиною Софійського університету та розташований у Софії, Болгарія. INSAIT був створений у 2022 році у співпраці зі швейцарськими університетами ETH Zurich та EPFL. Це стратегічна установа для Болгарії, що отримала початкове фінансування в розмірі близько 100 мільйонів доларів США від уряду Болгарії на 10 років, а також щедру підтримку від SiteGround, Google, AWS, VMware та інших компаній — на суму близько 15 мільйонів доларів. INSAIT — перший науковий центр такого рівня у Східній Європі, структурований за зразком провідних західних інститутів з комп’ютерних наук та ШІ. Він пропонує світового рівня умови для роботи для викладачів з перспективою постійного контракту, науковців, постдоків, аспірантів та багатьох інших спеціалістів. Наразі в INSAIT працюють дослідники з понад 23 країн світу, які займаються фундаментальними мовними моделями, безпечним ШІ, робототехнікою, комп’ютерним зором, квантовими обчисленнями, алгоритмами, інформаційною безпекою та іншими ключовими напрямами.
Зв’язок з нами
З усіх питань щодо MamayLM звертайтеся на email: contact@insait.ai
Посилання
- [1] Mitigating Catastrophic Forgetting in Language Transfer via Model Merging, Anton Alexandrov, Veselin Raychev, Mark Niklas Mueller, Ce Zhang, Martin Vechev, Kristina Toutanova. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 17167–17186, Miami, Florida, USA. Association for Computational Linguistics. https://aclanthology.org/2024.findings-emnlp.1000
- [2] Winogrande: An adversarial winograd schema challenge at scale, Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Communications of the ACM, 64(9):99–106, 2021.
- [3]Hellaswag: Can a machine really finish your sentence?, Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. https://arxiv.org/abs/1905.07830
- [4] Think you have solved question answering? try arc, the ai2 reasoning challenge, Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. https://arxiv.org/abs/1803.05457
- [5] Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension, Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. https://arxiv.org/abs/1705.03551
- [6] Training verifiers to solve math word problems, Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. https://arxiv.org/abs/2110.14168
- [7] Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation. Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Sebastian Ruder, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker https://arxiv.org/abs/2412.03304
- [8] ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian. Mykyta Syromiatnikov, Victoria Ruvinskaya, Anastasiya Troynina. https://arxiv.org/abs/2501.06715
- [9] Measuring Massive Multitask Language Understanding. Dan Hendrycks and Collin Burns and Steven Basart and Andy Zou and Mantas Mazeika and Dawn Song and Jacob Steinhardt. In International Conference on Learning Representations, 2021, https://openreview.net/pdf?id=d7KBjmI3GmQ
- [10] Instruction-Following Evaluation for Large Language Models. Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou. https://arxiv.org/abs/2311.07911
- [11] Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models. {Lucas Bandarkar and Benjamin Muller and Pritish Yuvraj and Rui Hou and Nayan Singhal and Hongjiang Lv and Bing Liu. The Thirteenth International Conference on Learning Representations, 2025. https://openreview.net/forum?id=vQhn4wrQ6j
- [12] The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments. Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag. https://arxiv.org/abs/2404.07982
- [13] Hantian Ding, Zijian Wang, Giovanni Paolini, Varun Kumar, Anoop Deoras, Dan Roth, and Stefano Soatto. 2024. Fewer truncations improve language modeling. In Proceedings of the 41st International Conference on Machine Learning (ICML'24), Vol. 235. JMLR.org, Article 439, 11030–11048.
- [14] SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model. Loubna Ben Allal and Anton Lozhkov and Elie Bakouch and Gabriel Martín Blázquez and Guilherme Penedo and Lewis Tunstall and Andrés Marafioti and Hynek Kydlíček and Agustín Piqueres Lajarín and Vaibhav Srivastav and Joshua Lochner and Caleb Fahlgren and Xuan-Son Nguyen and Clémentine Fourrier and Ben Burtenshaw and Hugo Larcher and Haojun Zhao and Cyril Zakka and Mathieu Morlon and Colin Raffel and Leandro von Werra and Thomas Wolf. https://arxiv.org/abs/2502.02737