rhysjones commited on
Commit
1a7f6aa
·
verified ·
1 Parent(s): 5229f21

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +89 -0
README.md CHANGED
@@ -1,3 +1,92 @@
1
  ---
2
  license: apache-2.0
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
+ language:
4
+ - cy
5
+ - en
6
+ datasets:
7
+ - yahma/alpaca-cleaned
8
  ---
9
+ # Mistral-7B-Cymraeg-Welsh-v2 #
10
+
11
+ This is a bilingual Mistral chat model trained in both English and Welsh languages.
12
+
13
+ The model is based on [BangorAI/mistral-7b-cy-epoch-2](https://huggingface.co/BangorAI/mistral-7b-cy-epoch-2) which is a continual pre-training of the [Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) model with Welsh data from the [allenai/MADLAD-400](https://huggingface.co/datasets/allenai/MADLAD-400) dataset for 2 epochs.
14
+
15
+ The model was then fine-tuned using the [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) dataset in both Welsh and English languages, also for 2 epochs.
16
+
17
+ ## Demo ##
18
+
19
+ An online demo of the model can be found at [https://demo.bangor.ai](https://demo.bangor.ai)
20
+
21
+ It's an experimental LLM, so don't take any response from the model seriously or as factually correct. You are responsible for any output you generate.
22
+
23
+ ## Format ##
24
+
25
+ The LLM uses the Llama-2 format for its prompts:
26
+ ```
27
+ <s>[INST] <<SYS>>
28
+ {{ system_prompt }}
29
+ <</SYS>>
30
+
31
+ {{ user_message }} [/INST]
32
+ ```
33
+
34
+ The language of the system prompt will guide the LLM as to which language it should respond in.
35
+ For example, in English:
36
+ ```
37
+ <s>[INST] <<SYS>>
38
+ You are a helpful assistant that responds truthfully, logically and in detail. Answer in English.
39
+ <</SYS>>
40
+
41
+ {{ user_message }} [/INST]
42
+
43
+ ```
44
+
45
+ Similarily, for responses in Welsh:
46
+
47
+ ```
48
+ <s>[INST] <<SYS>>
49
+ Rydych chi'n gynorthwydd cymwynasgar sy'n barod i ateb unrhyw gwestiwn yn ffyddlon. Ymatebwch i gwestiwn y defnyddiwr yn llawn a gyda ffeithiau cywir yn y Gymraeg.
50
+ <</SYS>>
51
+
52
+ {{ user_message }} [/INST]
53
+
54
+ ```
55
+
56
+ # Mistral-7B-Cymraeg-Welsh-v2 #
57
+
58
+ Mae hwn yn fodel sgwrsio Mistral dwyieithog wedi'i hyfforddi yn y Gymraeg a'r Saesneg.
59
+
60
+ Mae'r model yn seiliedig ar [BangorAI/mistral-7b-cy-epoch-2](https://huggingface.co/BangorAI/mistral-7b-cy-epoch-2) sy'n rhaghyfforddi parhaus o fodel [Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) gyda data [allenai/MADLAD-400](https://huggingface.co/datasets/allenai/MADLAD-400) ar gyfer 2 epoch.
61
+
62
+ Cafodd y model hyfforddiant cywrian pellach gan ddefnyddio'r dataset [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) yn Gymraeg a Saesneg, hefyd am 2 epochs.
63
+ Demo
64
+
65
+ ## Demo Byw ##
66
+ Mae fersiwn o'r model i'w gael yma am sgwrs: [https://demo.bangor.ai](https://demo.bangor.ai).
67
+
68
+ LLM arbrofol ydyw, felly peidiwch a chymeryd unrhyw ymateb gan y model o ddifri.
69
+
70
+ ## Fformat Sgwrs ##
71
+
72
+ Mae iaith y "system prompt" yn arwain yr LLM i ymateb yn y Gymraeg neu'r Saesneg.
73
+ Er enghraifft, ar gyfer y Gymraeg:
74
+ ```
75
+ <s>[INST] <<SYS>>
76
+ Rydych chi'n gynorthwydd cymwynasgar sy'n barod i ateb unrhyw gwestiwn yn ffyddlon. Ymatebwch i gwestiwn y defnyddiwr yn llawn a gyda ffeithiau cywir yn y Gymraeg.
77
+ <</SYS>>
78
+
79
+ {{ user_message }} [/INST]
80
+
81
+ ```
82
+
83
+ Yn yr un modd, ar gyfer atebion yn Saesneg:
84
+ ```
85
+ <s>[INST] <<SYS>>
86
+ You are a helpful assistant that responds truthfully, logically and in detail. Answer in English.
87
+ <</SYS>>
88
+
89
+ {{ user_message }} [/INST]
90
+
91
+ ```
92
+