|
--- |
|
language: |
|
- ru |
|
base_model: tabularisai/multilingual-sentiment-analysis |
|
pipeline_tag: text-classification |
|
tags: |
|
- sentiment-analysis |
|
- finance |
|
- russian |
|
- tpulse |
|
license: apache-2.0 |
|
metrics: |
|
- f1 |
|
- accuracy |
|
- recall |
|
- precision |
|
--- |
|
|
|
# 🇷🇺 FinSentiment: Анализ сентимента финансовых постов |
|
|
|
Модель дообучена на 3 класса (вместо 5) для анализа сентимента русскоязычных комментариев с платформы Тинькофф Пульс |
|
|
|
**Базовая модель:** [tabularisai/multilingual-sentiment-analysis](https://huggingface.co/tabularisai/multilingual-sentiment-analysis) |
|
|
|
**Задача:** Дообучена под классификацию текста на 3 классах: |
|
* `Positive` (Бычий настрой, рекомендация к покупке) |
|
* `Neutral` (Нейтральный настрой) |
|
* `Negative` (Медвежий настрой, рекомендация к продаже) |
|
|
|
## 🚀 Как Использовать (`transformers`) |
|
|
|
1. **Установите необходимые библиотеки:** |
|
```bash |
|
pip install transformers accelerate torch |
|
``` |
|
|
|
2. **Загрузите модель и токенизатор:** |
|
|
|
```python |
|
#TODO |
|
``` |
|
|
|
## ⚙️ Fine-tuning params |
|
|
|
* **Гиперпараметры Обучения:** |
|
* `learning_rate`: 2e-5 |
|
* `batch_size` (per_device): 16 |
|
* `gradient_accumulation_steps`: 4 |
|
* `num_train_epochs`: 6 |
|
* `weight_decay`: 0.0004 |
|
* `lr_scheduler_type`: 'cosine' |
|
* `warmup_ratio`: 0.2 |
|
* **Обучающий датасет:** |
|
* При помощи Yandex GPT5 Lite и Qwen3-14B были разменчены 40.000+ комментариев пользователей с платформы Тинькофф Пульс по бумагам SBER, LKOH, SGZH, MTLR за 2023-2025 год. |
|
|
|
|
|
## 📊 Метрики Качества (на валидации) |
|
|
|
| Эпоха | Training Loss | Validation Loss | Accuracy | Precision (Weighted) | Recall (Weighted) | F1-score (Weighted) | |
|
|-------|---------------|-----------------|----------|----------------------|-------------------|---------------------| |
|
| 1 | 0.9516 | 0.8098 | 0.6470 | 0.6506 | 0.6470 | 0.6470 | |
|
| 2 | 0.7500 | 0.7200 | 0.6902 | 0.7011 | 0.6902 | 0.6900 | |
|
| 3 | 0.6281 | 0.6945 | 0.7137 | 0.7140 | 0.7137 | 0.7136 | |
|
| 4 | 0.5379 | 0.7047 | 0.7168 | 0.7183 | 0.7168 | 0.7167 | |
|
| **5** | **0.4340** | **0.6902** | **0.7188**| **0.7173** | **0.7174** | **0.7169** | |
|
|
|
*Примечание: TODO* |
|
|
|
## 📝 Замечания |
|
|
|
* Модель предназначена для анализа тональности текстов на русском языке в контексте фондового рынка. |
|
* TODO |
|
|
|
## 📜 Лицензия |
|
|
|
Эта модель распространяется под лицензией [Apache 2.0](LICENSE) |