cv_animals

Model description

Dieses Modell ist ein feingetuntes Vision Transformer (ViT) Modell, das auf dem vortrainierten google/vit-base-patch16-224 basiert. Es wurde speziell für die Klassifikation von Bildern in 90 verschiedene Tierklassen trainiert. Die zugrunde liegenden Daten stammen aus dem öffentlich verfügbaren Animal Image Dataset, das Bilder aus Google aggregiert.

Das Modell eignet sich für Anwendungen, bei denen Tiere auf Fotos automatisch erkannt und klassifiziert werden sollen. Typische Einsatzgebiete sind beispielsweise:

automatisierte Artenbestimmung
bildgestützte Tierdatenerfassung in Forschung und Lehre
edukative oder interaktive Anwendungen (z. B. in Museen oder Apps).

Erzielte Resultate:

Loss: 0.0876
Accuracy: 0.9833

Intended uses & limitations

Vorgesehene Verwendungen

Dieses Modell wurde für die Bildklassifikation von Tieren in 90 Kategorien entwickelt. Es eignet sich insbesondere für:

Bildbasierte Tiererkennung in Anwendungen wie Lernplattformen, mobilen Apps, oder interaktiven Tools
Unterstützung bei biologischer Arterkennung (z. B. für Bildungsprojekte oder Citizen Science)
Vergleich von Transfer-Learning-Modellen mit Zero-Shot-Modellen (z. B. CLIP)

Einschränkungen

Die Vorhersagen sind stark abhängig von Bildqualität und Perspektive
Das Modell wurde nur mit Bildern aus dem Kaggle-Datensatz trainiert – es ist nicht garantiert, dass es bei anderen Tierarten oder in freier Wildbahn korrekt klassifiziert
Mehrdeutige oder unklare Bilder (z. B. mit mehreren Tieren, Zeichnungen, Verdeckungen) können zu falschen Vorhersagen führen

Training and evaluation data

Datensatz: Animal Image Dataset - 90 different animals

Anzahl Bilder: 5.400

Klassen: 90 Tierarten (z. B. Hund, Katze, Elefant, Biene, Löwe etc.)

Aufteilung:

80 % Training (4.320 Bilder)
10 % Validierung (540 Bilder)
10 % Test (540 Bilder)

Augmentierungen

Zur Verbesserung der Generalisierbarkeit wurden folgende Transformationen auf die Trainingsbilder angewendet:

RandomHorizontalFlip() – zufälliges horizontales Spiegeln
RandomRotation(25) – zufällige Drehung um ±25°
ColorJitter() – zufällige Helligkeits-, Kontrast-, Sättigungs- und Farbtonänderungen

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0003
train_batch_size: 16
eval_batch_size: 8
seed: 42
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 5

Training results

Training Loss	Epoch	Step	Validation Loss	Accuracy
1.1951	1.0	270	0.3316	0.9648
0.2763	2.0	540	0.1710	0.9667
0.1772	3.0	810	0.1482	0.9648
0.1533	4.0	1080	0.1391	0.9704
0.1462	5.0	1350	0.1350	0.9685

Framework versions

Transformers 4.50.0
Pytorch 2.6.0+cu124
Datasets 3.4.1
Tokenizers 0.21.1

Dalmatiner
/

cv_animals