O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

paws_x_wiki

  • Descrição:

Este conjunto de dados contém 23.659 pares de avaliação PAWS traduzidos por humanos e 296.406 pares de treinamento traduzidos por máquina em seis línguas tipologicamente distintas:

  • francês
  • espanhol
  • alemão
  • chinês
  • japonês
  • coreano

Para mais detalhes, ver o papel que acompanha: PATAS-X: Um translinguística Adversarial Conjunto de dados para Paráfrase Identificação em https://arxiv.org/abs/1908.11828

Semelhante ao conjunto de dados PAWS, os exemplos são divididos em seções de treinamento / desenvolvimento / teste. Todos os arquivos estão no formato tsv com quatro colunas:

id Um id único para cada par frase1 A primeira frase frase2 A segunda frase (ruidoso_) rótulo (ruidoso) rótulo para cada par

Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (configuração padrão)

  • A inscrição Config: Traduzido para de

  • Dataset tamanho: 15.27 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki / en

  • A inscrição Config: Traduzido para en

  • Dataset tamanho: 14.59 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki / es

  • A inscrição Config: Traduzido para es

  • Dataset tamanho: 15.27 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.000
'train' 49.401
'validation' 1.961

paws_x_wiki / fr

  • A inscrição Config: Traduzido para fr

  • Dataset tamanho: 15.79 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki / ja

  • A inscrição Config: Traduzido para ja

  • Dataset tamanho: 17.77 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.000
'train' 49.401
'validation' 2.000

paws_x_wiki / ko

  • A inscrição Config: Traduzido para ko

  • Dataset tamanho: 16.42 MiB

  • desdobramentos:

Dividir Exemplos
'test' 1.999
'train' 49.164
'validation' 2.000

paws_x_wiki / zh

  • A inscrição Config: Traduzido para zh

  • Dataset tamanho: 13.20 MiB

  • desdobramentos:

Dividir Exemplos
'test' 2.000
'train' 49.401
'validation' 2.000