File size: 3,257 Bytes
4e96646
 
 
17b558a
4e96646
 
17b558a
4e96646
17b558a
4e96646
17b558a
46a2436
 
 
 
 
17b558a
 
c873085
17b558a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4832795
17b558a
 
 
 
 
 
 
 
 
 
83aafdd
17b558a
 
 
 
 
014759e
17b558a
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
---
language:
- ru
base_model: tabularisai/multilingual-sentiment-analysis
pipeline_tag: text-classification
tags:
- sentiment-analysis
- finance
- russian
- tpulse
license: apache-2.0
metrics:
- f1
- accuracy
- recall
- precision
---

# 🇷🇺 FinSentiment: Анализ сентимента финансовых постов

Модель дообучена на 3 класса (вместо 5) для анализа сентимента русскоязычных комментариев с платформы Тинькофф Пульс

**Базовая модель:** [tabularisai/multilingual-sentiment-analysis](https://huggingface.co/tabularisai/multilingual-sentiment-analysis)

**Задача:** Дообучена под классификацию текста на 3 классах:
*   `Positive` (Бычий настрой, рекомендация к покупке)
*   `Neutral` (Нейтральный настрой)
*   `Negative` (Медвежий настрой, рекомендация к продаже)

## 🚀 Как Использовать (`transformers`)

1.  **Установите необходимые библиотеки:**
    ```bash
    pip install transformers accelerate torch
    ```

2.  **Загрузите модель и токенизатор:**

    ```python
    #TODO
    ```

## ⚙️ Fine-tuning params

*   **Гиперпараметры Обучения:**
    *   `learning_rate`: 2e-5
    *   `batch_size` (per_device): 16
    *   `gradient_accumulation_steps`: 4
    *   `num_train_epochs`: 6
    *   `weight_decay`: 0.0004
    *   `lr_scheduler_type`: 'cosine'
    *   `warmup_ratio`: 0.2
*   **Обучающий датасет:**
*   При помощи Yandex GPT5 Lite и Qwen3-14B были разменчены 40.000+ комментариев пользователей с платформы Тинькофф Пульс по бумагам SBER, LKOH, SGZH, MTLR за 2023-2025 год. 


## 📊 Метрики Качества (на валидации)

| Эпоха | Training Loss | Validation Loss | Accuracy | Precision (Weighted) | Recall (Weighted) | F1-score (Weighted) |
|-------|---------------|-----------------|----------|----------------------|-------------------|---------------------|
| 1     | 0.9516        | 0.8098          | 0.6470   | 0.6506               | 0.6470            | 0.6470              |
| 2     | 0.7500        | 0.7200          | 0.6902   | 0.7011               | 0.6902            | 0.6900              |
| 3     | 0.6281        | 0.6945          | 0.7137   | 0.7140               | 0.7137            | 0.7136              |
| 4     | 0.5379        | 0.7047          | 0.7168   | 0.7183               | 0.7168            | 0.7167              |
| **5** | **0.4340**    | **0.6902**      | **0.7188**| **0.7173**          | **0.7174**        | **0.7169**          |

*Примечание: TODO*

## 📝 Замечания

*   Модель предназначена для анализа тональности текстов на русском языке в контексте фондового рынка.
*   TODO

## 📜 Лицензия

Эта модель распространяется под лицензией [Apache 2.0](LICENSE)