Ukrainian Slang Detection Enhanced Model

Покращена модель для визначення сленгових слів в українському тексті з розширеним набором лінгвістичних ознак.

Модель

Тип: Random Forest Classifier (sklearn)
F1-Score: 0.846
Кількість фічей: 5,395
Навчальних прикладів: 10,000 (5,000 сленг + 5,000 нейтральні)
Мова: Українська

Фічі моделі

1. TF-IDF символьні n-грами (2-5)

Аналізує послідовності символів для виявлення сленгових патернів

2. TF-IDF словесні n-грами

Аналізує цілі слова та їх комбінації

3. Лінгвістичні ознаки (14 фічей)

Довжина слова
Повторювані символи
Співвідношення голосних/приголосних
Наявність цифр та спеціальних символів
Сленгові патерни ('жж', 'кк', 'топ', 'лол', тощо)
Морфологічні характеристики

Файли моделі

enhanced_slang_model.pkl - повна навчена модель з pipeline
model_metadata.json - метадані про модель

Використання

import joblib
from huggingface_hub import hf_hub_download

# Завантажити модель
model_path = hf_hub_download(
    repo_id="RomanSavitskyi/ukrainian-slang-detection-enhanced", 
    filename="enhanced_slang_model.pkl"
)

model = joblib.load(model_path)

# Класифікація
def predict_slang_enhanced(word):
    pred = model.predict([word])[0]
    prob = model.predict_proba([word])[0]
    slang_prob = prob[1]
    label = "SLANG" if pred == 1 else "NEUTRAL"
    return {"label": label, "score": float(slang_prob)}

# Приклад використання
result = predict_slang_enhanced("кльово")
print(result)  # {"label": "SLANG", "score": 0.84}

Покращення порівняно з базовою моделлю

F1-Score: 0.846 vs 0.78 (базова)
Фічі: 5,395 vs 3,000 (базова)
Кращий розпіз повторюваних символів: "кльововоо", "хахаха"
Розуміння морфології: українські відмінки та форми
Стійкість до шуму: менше false positives

Тестові результати

кльово     -> СЛЕНГ (0.840)
супер      -> НЕЙТРАЛЬНЕ (0.460)  
топчик     -> СЛЕНГ (0.690)
книга      -> НЕЙТРАЛЬНЕ (0.190)
хахаха     -> СЛЕНГ (0.870)

Ліцензія

MIT License