Ukrainian Slang Detection Enhanced Model

Покращена модель для визначення сленгових слів в українському тексті з розширеним набором лінгвістичних ознак.

Модель

  • Тип: Random Forest Classifier (sklearn)
  • F1-Score: 0.846
  • Кількість фічей: 5,395
  • Навчальних прикладів: 10,000 (5,000 сленг + 5,000 нейтральні)
  • Мова: Українська

Фічі моделі

1. TF-IDF символьні n-грами (2-5)

  • Аналізує послідовності символів для виявлення сленгових патернів

2. TF-IDF словесні n-грами

  • Аналізує цілі слова та їх комбінації

3. Лінгвістичні ознаки (14 фічей)

  • Довжина слова
  • Повторювані символи
  • Співвідношення голосних/приголосних
  • Наявність цифр та спеціальних символів
  • Сленгові патерни ('жж', 'кк', 'топ', 'лол', тощо)
  • Морфологічні характеристики

Файли моделі

  • enhanced_slang_model.pkl - повна навчена модель з pipeline
  • model_metadata.json - метадані про модель

Використання

import joblib
from huggingface_hub import hf_hub_download

# Завантажити модель
model_path = hf_hub_download(
    repo_id="RomanSavitskyi/ukrainian-slang-detection-enhanced", 
    filename="enhanced_slang_model.pkl"
)

model = joblib.load(model_path)

# Класифікація
def predict_slang_enhanced(word):
    pred = model.predict([word])[0]
    prob = model.predict_proba([word])[0]
    slang_prob = prob[1]
    label = "SLANG" if pred == 1 else "NEUTRAL"
    return {"label": label, "score": float(slang_prob)}

# Приклад використання
result = predict_slang_enhanced("кльово")
print(result)  # {"label": "SLANG", "score": 0.84}

Покращення порівняно з базовою моделлю

  • F1-Score: 0.846 vs 0.78 (базова)
  • Фічі: 5,395 vs 3,000 (базова)
  • Кращий розпіз повторюваних символів: "кльововоо", "хахаха"
  • Розуміння морфології: українські відмінки та форми
  • Стійкість до шуму: менше false positives

Тестові результати

кльово     -> СЛЕНГ (0.840)
супер      -> НЕЙТРАЛЬНЕ (0.460)  
топчик     -> СЛЕНГ (0.690)
книга      -> НЕЙТРАЛЬНЕ (0.190)
хахаха     -> СЛЕНГ (0.870)

Ліцензія

MIT License

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support