Ukrainian Slang Detection Enhanced Model
Покращена модель для визначення сленгових слів в українському тексті з розширеним набором лінгвістичних ознак.
Модель
- Тип: Random Forest Classifier (sklearn)
- F1-Score: 0.846
- Кількість фічей: 5,395
- Навчальних прикладів: 10,000 (5,000 сленг + 5,000 нейтральні)
- Мова: Українська
Фічі моделі
1. TF-IDF символьні n-грами (2-5)
- Аналізує послідовності символів для виявлення сленгових патернів
2. TF-IDF словесні n-грами
- Аналізує цілі слова та їх комбінації
3. Лінгвістичні ознаки (14 фічей)
- Довжина слова
- Повторювані символи
- Співвідношення голосних/приголосних
- Наявність цифр та спеціальних символів
- Сленгові патерни ('жж', 'кк', 'топ', 'лол', тощо)
- Морфологічні характеристики
Файли моделі
enhanced_slang_model.pkl
- повна навчена модель з pipelinemodel_metadata.json
- метадані про модель
Використання
import joblib
from huggingface_hub import hf_hub_download
# Завантажити модель
model_path = hf_hub_download(
repo_id="RomanSavitskyi/ukrainian-slang-detection-enhanced",
filename="enhanced_slang_model.pkl"
)
model = joblib.load(model_path)
# Класифікація
def predict_slang_enhanced(word):
pred = model.predict([word])[0]
prob = model.predict_proba([word])[0]
slang_prob = prob[1]
label = "SLANG" if pred == 1 else "NEUTRAL"
return {"label": label, "score": float(slang_prob)}
# Приклад використання
result = predict_slang_enhanced("кльово")
print(result) # {"label": "SLANG", "score": 0.84}
Покращення порівняно з базовою моделлю
- F1-Score: 0.846 vs 0.78 (базова)
- Фічі: 5,395 vs 3,000 (базова)
- Кращий розпіз повторюваних символів: "кльововоо", "хахаха"
- Розуміння морфології: українські відмінки та форми
- Стійкість до шуму: менше false positives
Тестові результати
кльово -> СЛЕНГ (0.840)
супер -> НЕЙТРАЛЬНЕ (0.460)
топчик -> СЛЕНГ (0.690)
книга -> НЕЙТРАЛЬНЕ (0.190)
хахаха -> СЛЕНГ (0.870)
Ліцензія
MIT License
- Downloads last month
- -
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support