File size: 1,769 Bytes
38eb1b9
 
 
5e75887
38eb1b9
 
 
 
5e75887
 
 
 
 
38eb1b9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a364631
38eb1b9
a364631
 
38eb1b9
a364631
38eb1b9
a364631
38eb1b9
a364631
38eb1b9
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
---
license: other
license_name: tongyi-qianwen-research
license_link: https://huggingface.co/Qwen/Qwen1.5-0.5B/blob/main/LICENSE
language:
- ja
- en
pipeline_tag: text-generation
datasets:
- izumi-lab/wikipedia-ja-20230720
- oscar-corpus/OSCAR-2301
- aixsatoshi/cosmopedia-japanese-100k
- BEE-spoke-data/wikipedia-20230901.en-deduped
---

## モデルについて
[Qwen/Qwen1.5-0.5B](https://huggingface.co/Qwen/Qwen1.5-0.5B)を日英データ5Bトークンで継続事前学習したモデルです。

ベンチマークのスコアは低下していますが、ベースモデルよりも安定して日本語を出力するようになっています。

詳細は[こちら](https://zenn.dev/kendama/articles/55564e12da6e82)をご覧ください。

## ベンチマーク
[Stability-AI/lm-evaluation-harness](https://github.com/Stability-AI/lm-evaluation-harness)の3項目で評価
| モデル                       | jsquad(1-shot) | jcommonsenseqa(1-shot) | jnli(1-shot) | 
| ---------------------------- | -------------- | ---------------------- | ------------ | 
| Kendamarron/Tokara-0.5B-v0.1 | 26.4295        | 0.2663                 | 0.5509       | 
| Qwen/Qwen1.5-0.5B            | 31.3597        | 0.2556                 | 0.5534       | 

## 名前について
日本の在来馬であるトカラ馬から

```python
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model = AutoModelForCausalLM.from_pretrained('Kendamarron/Tokara-0.5B-v0.1')
tokenizer = AutoTokenizer.from_pretrained('Kendamarron/Tokara-0.5B-v0.1')

pipe = pipeline('text-generation', model=model, tokenizer=tokenizer)

prompt = "大規模言語モデルとは、"

print(pipe(prompt, max_length=128, repetition_penalty=1.1, temperature=0.7, top_p=0.95))

```