--- library_name: transformers license: cc-by-nc-nd-4.0 --- # ruSpamNS_v31_big Модель `ruSpamNS_v31_big` — нейросеть для определения спама в русскоязычных текстах. Обучена на почти 5 миллионах примеров, показывает высокую точность и устойчивость, но иногда может ошибаться на сообщениях с коммерческой тематикой. ## Архитектура * **Базовая модель:** RuBERT * **Тип задачи:** бинарная классификация (СПАМ / НЕ СПАМ) * **Количество меток:** 1 (используется сигмоида для вероятности спама) * **Фреймворк:** PyTorch + Transformers (Hugging Face) ## Особенности * Обработка текста до 512 токенов * Поддержка GPU через PyTorch * Высокая точность на русскоязычном спаме * Используется в антиспам-боте Telegram: [@AntiSpam_moder_bot](https://t.me/AntiSpam_moder_bot) * **При использовании модели в проектах необходимо указывать ссылку на репозиторий.** ## Пример использования ```python import torch from transformers import AutoTokenizer, AutoModelForSequenceClassification device = torch.device("cuda" if torch.cuda.is_available() else "cpu") tokenizer = AutoTokenizer.from_pretrained("NeuroSpaceX/ruSpamNS_v31_big") model = AutoModelForSequenceClassification.from_pretrained( "NeuroSpaceX/ruSpamNS_v31_big", num_labels=1 ).to(device).eval() text = "Пример сообщения" encoding = tokenizer(text, padding="max_length", truncation=True, max_length=512, return_tensors="pt") input_ids = encoding["input_ids"].to(device) attention_mask = encoding["attention_mask"].to(device) with torch.no_grad(): outputs = model(input_ids, attention_mask=attention_mask).logits prediction = torch.sigmoid(outputs).cpu().numpy()[0][0] is_spam = prediction >= 0.5 print(f"Результат: {'СПАМ' if is_spam else 'НЕ СПАМ'} (уверенность: {prediction:.4f})")