Cabra 72b

Cabra 72b Γ© um finetune do Qwen 1.5 72b Chat com o dataset Cabra 30k. Esse modelo Γ© otimizado para portuguΓͺs e responde em portuguese. Ele apresenta melhoria em vΓ‘rios benchmarks brasileiros em comparaΓ§Γ£o com o modelo base.

ConheΓ§a os nossos outros modelos Cabra.

Detalhes do modelo base

Modelo: Qwen 1.5 72b chat

Qwen1.5 Γ© uma sΓ©rie de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lanΓ§amos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativaΓ§Γ£o SwiGLU, viΓ©s de atenΓ§Γ£o QKV, atenΓ§Γ£o de consulta em grupo, mistura de atenΓ§Γ£o de janela deslizante e atenΓ§Γ£o completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a mΓΊltiplas lΓ­nguas naturais e cΓ³digos. Para a versΓ£o beta, temporariamente nΓ£o incluΓ­mos GQA e a mistura de SWA e atenΓ§Γ£o completa.

dataset: Cabra 30k

Dataset interno para fine-tuning. Vamos lanΓ§ar em breve.

QuantizaΓ§Γ£o / GGUF

Colocamos diversas versΓ΅es (GGUF) quantanizadas no branch "quantanization". Infelizmente o HF limita o tamanho de arquivo a <50gb.

Exemplo

<s> [INST]Quem sΓ£o os jogadores brasileiros de futebol mais conhecidos, atuais e pasados? [/INST] 

O Brasil tem uma rica histΓ³ria na produΓ§Γ£o de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que jΓ‘ jogaram incluem:

PelΓ© - amplamente considerado um dos maiores jogadores de todos os tempos, o PelΓ© venceu trΓͺs Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
Ronaldo NazΓ‘rio de Lima - conhecido como Ronaldo, este jogador de ataque Γ© o segundo maior artilheiro da histΓ³ria da seleΓ§Γ£o brasileira e ajudou o Brasil a vencer duas Copas do Mundo.

Ronaldinho GaΓΊcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.

Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para vΓ‘rias vitΓ³rias em torneios principais e Γ© conhecido por suas habilidades incrΓ­veis de drible e capacidade de marcar gols.

Esses sΓ£o apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica histΓ³ria.
</s>

Paramentros de trainamento

- train/epoch: 3
- train/global_step: 1,893
- train/grad_norm: 0.5843151168226935
- train/learning_rate: 0.00000000006323276533
- train/loss: 0.4379
- train/total_flos: 7,334,660,338,089,984
- train/train_loss: 0.628420232404053
- train/train_runtime: 415,863.2395
- train/train_samples_per_second: 0.437
- train/train_steps_per_second: 0.005
- GPU: 8x A100 80GB SXB

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo Γ© destinado, por agora, a fins de pesquisa. As Γ‘reas e tarefas de pesquisa possΓ­veis incluem:

  • Pesquisa sobre modelos gerativos.
  • InvestigaΓ§Γ£o e compreensΓ£o das limitaΓ§Γ΅es e vieses de modelos gerativos.

**Proibido para uso comercial. Somente Pesquisa. Entre em contato para mais informaΓ§Γ΅es. **

Evals

Tasks Version Filter n-shot Metric Value Β± Stderr
assin2_rte 1.1 all 15 f1_macro 0.9358 Β± 0.0035
all 15 acc 0.9359 Β± 0.0035
assin2_sts 1.1 all 15 pearson 0.7803 Β± 0.0068
all 15 mse 0.5815 Β± N/A
bluex 1.1 all 3 acc 0.6745 Β± 0.0101
exam_id__USP_2019 3 acc 0.5500 Β± 0.0453
exam_id__UNICAMP_2021_1 3 acc 0.5870 Β± 0.0418
exam_id__USP_2020 3 acc 0.6250 Β± 0.0373
exam_id__USP_2022 3 acc 0.6939 Β± 0.0381
exam_id__UNICAMP_2019 3 acc 0.7200 Β± 0.0367
exam_id__UNICAMP_2024 3 acc 0.5778 Β± 0.0425
exam_id__USP_2018 3 acc 0.5926 Β± 0.0385
exam_id__USP_2021 3 acc 0.6538 Β± 0.0381
exam_id__UNICAMP_2023 3 acc 0.7442 Β± 0.0385
exam_id__UNICAMP_2021_2 3 acc 0.6667 Β± 0.0380
exam_id__UNICAMP_2020 3 acc 0.7091 Β± 0.0355
exam_id__USP_2023 3 acc 0.8182 Β± 0.0336
exam_id__USP_2024 3 acc 0.8537 Β± 0.0318
exam_id__UNICAMP_2022 3 acc 0.6667 Β± 0.0435
exam_id__UNICAMP_2018 3 acc 0.6852 Β± 0.0364
enem 1.1 all 3 acc 0.8062 Β± 0.0060
exam_id__2016_2 3 acc 0.7967 Β± 0.0210
exam_id__2014 3 acc 0.8165 Β± 0.0214
exam_id__2010 3 acc 0.8291 Β± 0.0202
exam_id__2023 3 acc 0.8000 Β± 0.0199
exam_id__2009 3 acc 0.7913 Β± 0.0219
exam_id__2017 3 acc 0.7931 Β± 0.0217
exam_id__2011 3 acc 0.8718 Β± 0.0178
exam_id__2015 3 acc 0.8151 Β± 0.0205
exam_id__2012 3 acc 0.8621 Β± 0.0185
exam_id__2016 3 acc 0.8430 Β± 0.0190
exam_id__2013 3 acc 0.7870 Β± 0.0228
exam_id__2022 3 acc 0.6842 Β± 0.0233
faquad_nli 1.1 all 15 f1_macro 0.4545 Β± 0.0081
all 15 acc 0.7877 Β± 0.0113
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7212 Β± 0.0087
all 25 acc 0.7393 Β± 0.0083
oab_exams 1.5 all 3 acc 0.5718 Β± 0.0061

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here and on the πŸš€ Open Portuguese LLM Leaderboard

Metric Value
Average 70.52
ENEM Challenge (No Images) 80.62
BLUEX (No Images) 67.45
OAB Exams 57.18
Assin2 RTE 93.58
Assin2 STS 78.03
FaQuAD NLI 45.45
HateBR Binary 72.12
PT Hate Speech Binary 68.65
tweetSentBR 71.64
Downloads last month
21
Safetensors
Model size
72.3B params
Tensor type
BF16
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for botbot-ai/Cabra-72b

Base model

Qwen/Qwen1.5-72B
Finetuned
(3)
this model
Quantizations
2 models

Space using botbot-ai/Cabra-72b 1

Collection including botbot-ai/Cabra-72b

Evaluation results