Update README.md
Browse files
README.md
CHANGED
@@ -1,12 +1,76 @@
|
|
1 |
---
|
|
|
2 |
language:
|
3 |
- ru
|
4 |
-
|
5 |
-
|
|
|
6 |
pipeline_tag: text-classification
|
7 |
tags:
|
8 |
-
- sentiment
|
9 |
- finance
|
10 |
-
-
|
|
|
|
|
11 |
- tpulse
|
12 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
|
3 |
language:
|
4 |
- ru
|
5 |
+
|
6 |
+
library_name: peft
|
7 |
+
base_model: tabularisai/multilingual-sentiment-analysis
|
8 |
pipeline_tag: text-classification
|
9 |
tags:
|
10 |
+
- sentiment-analysis
|
11 |
- finance
|
12 |
+
- russian
|
13 |
+
- lora
|
14 |
+
- peft
|
15 |
- tpulse
|
16 |
+
license: apache-2.0
|
17 |
+
---
|
18 |
+
|
19 |
+
# 🇷🇺 FinSentiment: Анализ Сентимента Финансовых Постов
|
20 |
+
|
21 |
+
Модель дообучена на 3 класса (вместо 5) для анализа сентимента русскоязычных комментариев с платформы Тинькофф Пульс
|
22 |
+
|
23 |
+
**Базовая модель:** [tabularisai/multilingual-sentiment-analysis](https://huggingface.co/tabularisai/multilingual-sentiment-analysis)
|
24 |
+
|
25 |
+
**Задача:** Дообучена под классификацию текста на 3 классах:
|
26 |
+
* `Positive` (Бычий настрой, рекомендация к покупке)
|
27 |
+
* `Neutral` (Нейтральный настрой)
|
28 |
+
* `Negative` (Медвежий настрой, рекомендация к продаже)
|
29 |
+
|
30 |
+
## 🚀 Как Использовать (`transformers`)
|
31 |
+
|
32 |
+
1. **Установите необходимые библиотеки:**
|
33 |
+
```bash
|
34 |
+
pip install transformers accelerate torch
|
35 |
+
```
|
36 |
+
|
37 |
+
2. **Загрузите модель и токенизатор:**
|
38 |
+
|
39 |
+
```python
|
40 |
+
#TODO
|
41 |
+
```
|
42 |
+
|
43 |
+
## ⚙️ Fine-tuning params
|
44 |
+
|
45 |
+
* **Гиперпараметры Обучения:**
|
46 |
+
* `learning_rate`: 2e-5
|
47 |
+
* `batch_size` (per_device): 16
|
48 |
+
* `gradient_accumulation_steps`: 4
|
49 |
+
* `num_train_epochs`: 6
|
50 |
+
* `weight_decay`: 0.0004
|
51 |
+
* `lr_scheduler_type`: 'cosine'
|
52 |
+
* `warmup_ratio`: 0.2
|
53 |
+
* **Обучающий датасет:**
|
54 |
+
* При помощи Yandex GPT5 Lite были разменченны 35.000+ комментариев пользователей с платформы Тинькофф Пульс по бумагам SBER, LKOH, SGZH, MTLR за 2023-2025 год.
|
55 |
+
|
56 |
+
|
57 |
+
## 📊 Метрики Качества (на валидации)
|
58 |
+
|
59 |
+
| Эпоха | Training Loss | Validation Loss | Accuracy | Precision (Weighted) | Recall (Weighted) | F1-score (Weighted) |
|
60 |
+
|-------|---------------|-----------------|----------|----------------------|-------------------|---------------------|
|
61 |
+
| 1 | 0.9516 | 0.8098 | 0.6470 | 0.6506 | 0.6470 | 0.6470 |
|
62 |
+
| 2 | 0.7500 | 0.7200 | 0.6902 | 0.7011 | 0.6902 | 0.6900 |
|
63 |
+
| 3 | 0.6281 | 0.6945 | 0.7137 | 0.7140 | 0.7137 | 0.7136 |
|
64 |
+
| 4 | 0.5379 | 0.7047 | 0.7168 | 0.7183 | 0.7168 | 0.7167 |
|
65 |
+
| **5** | **0.4340** | **0.7302** | **0.7168**| **0.7173** | **0.7168** | **0.7169** |
|
66 |
+
|
67 |
+
*Примечание: TODO*
|
68 |
+
|
69 |
+
## 📝 Замечания
|
70 |
+
|
71 |
+
* Модель предназначена для анализа тональности текстов на русском языке в контексте финансов.
|
72 |
+
* TODO
|
73 |
+
|
74 |
+
## 📜 Лицензия
|
75 |
+
|
76 |
+
Эта модель распространяется под лицензией [Apache 2.0](LICENSE)
|