--- language: - ru base_model: tabularisai/multilingual-sentiment-analysis pipeline_tag: text-classification tags: - sentiment-analysis - finance - russian - tpulse license: apache-2.0 metrics: - f1 - accuracy - recall - precision --- # 🇷🇺 FinSentiment: Анализ сентимента финансовых постов Модель дообучена на 3 класса (вместо 5) для анализа сентимента русскоязычных комментариев с платформы Тинькофф Пульс **Базовая модель:** [tabularisai/multilingual-sentiment-analysis](https://huggingface.co/tabularisai/multilingual-sentiment-analysis) **Задача:** Дообучена под классификацию текста на 3 классах: * `Positive` (Бычий настрой, рекомендация к покупке) * `Neutral` (Нейтральный настрой) * `Negative` (Медвежий настрой, рекомендация к продаже) ## 🚀 Как Использовать (`transformers`) 1. **Установите необходимые библиотеки:** ```bash pip install transformers accelerate torch ``` 2. **Загрузите модель и токенизатор:** ```python #TODO ``` ## ⚙️ Fine-tuning params * **Гиперпараметры Обучения:** * `learning_rate`: 2e-5 * `batch_size` (per_device): 16 * `gradient_accumulation_steps`: 4 * `num_train_epochs`: 6 * `weight_decay`: 0.0004 * `lr_scheduler_type`: 'cosine' * `warmup_ratio`: 0.2 * **Обучающий датасет:** * При помощи Yandex GPT5 Lite и Qwen3-14B были разменчены 40.000+ комментариев пользователей с платформы Тинькофф Пульс по бумагам SBER, LKOH, SGZH, MTLR за 2023-2025 год. ## 📊 Метрики Качества (на валидации) | Эпоха | Training Loss | Validation Loss | Accuracy | Precision (Weighted) | Recall (Weighted) | F1-score (Weighted) | |-------|---------------|-----------------|----------|----------------------|-------------------|---------------------| | 1 | 0.9516 | 0.8098 | 0.6470 | 0.6506 | 0.6470 | 0.6470 | | 2 | 0.7500 | 0.7200 | 0.6902 | 0.7011 | 0.6902 | 0.6900 | | 3 | 0.6281 | 0.6945 | 0.7137 | 0.7140 | 0.7137 | 0.7136 | | 4 | 0.5379 | 0.7047 | 0.7168 | 0.7183 | 0.7168 | 0.7167 | | **5** | **0.4340** | **0.6902** | **0.7188**| **0.7173** | **0.7174** | **0.7169** | *Примечание: TODO* ## 📝 Замечания * Модель предназначена для анализа тональности текстов на русском языке в контексте фондового рынка. * TODO ## 📜 Лицензия Эта модель распространяется под лицензией [Apache 2.0](LICENSE)