# @package _group_

common:
  fp16: true
  fp16_init_scale: 4
  threshold_loss_scale: 1
  fp16_scale_window: 128
  log_format: json
  log_interval: 200
  user_dir: ${env:PWD}/examples/data2vec

task:
  _name: sentence_prediction
  data: ???
  init_token: 0
  separator_token: 2
  num_classes: 3
  max_positions: 512
  d2v2_multi: True

checkpoint:
  best_checkpoint_metric: accuracy
  maximize_best_checkpoint_metric: true
  no_epoch_checkpoints: true

distributed_training:
  find_unused_parameters: true
  distributed_world_size: 1
  nprocs_per_node: 1
  distributed_port: -1

criterion:
  _name: sentence_prediction

dataset:
  batch_size: 32
  required_batch_size_multiple: 1
  max_tokens: 4400
  valid_subset: valid,valid1
  num_workers: 1

optimizer:
  _name: adam
  weight_decay: 0.1
  adam_betas: (0.9,0.98)
  adam_eps: 1e-06

lr_scheduler:
  _name: polynomial_decay
  warmup_updates: 7432

optimization:
  clip_norm: 0.0
  lr: [2e-05]
  max_update: 123873
  max_epoch: 10

model:
  _name: data2vec_text_classification
  model_path: ???