O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

paws_wiki

  • Descrição:

Os conjuntos de dados de identificação de paráfrases existentes não têm pares de frases com alta sobreposição lexical sem serem paráfrases. Os modelos treinados com esses dados não conseguem distinguir pares como voos de Nova York para a Flórida e voos da Flórida para Nova York. Este conjunto de dados contém 108.463 pares marcados por humanos e 656k pares marcados ruidosamente que apresentam a importância da estrutura de modelagem, contexto e informações de ordem de palavras para o problema de identificação de paráfrases.

Para mais detalhes, consulte o documento que acompanha: PATAS: Paráfrase adversários da Palavra Lutando pelo https://arxiv.org/abs/1904.01130

Este corpus contém pares gerados a partir de páginas da Wikipedia, contendo pares gerados a partir de métodos de troca de palavras e retrotradução. Todos os pares têm julgamentos humanos tanto na paráfrase quanto na fluência e são divididos em seções de treinamento / desenvolvimento / teste.

Todos os arquivos estão no formato tsv com quatro colunas:

id Um id único para cada par frase1 A primeira frase frase2 A segunda frase (ruidoso_) rótulo (ruidoso) rótulo para cada par

Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (configuração padrão)

  • A inscrição Config: subconjunto: tokenized labeled_final: True

  • Dataset tamanho: 17.96 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki / labeled_final_raw

  • A inscrição Config: subconjunto: labeled_final tokenized: Falso

  • Dataset tamanho: 17.57 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki / labeled_swap_tokenized

  • A inscrição Config: subconjunto: labeled_swap tokenized: True

  • Dataset tamanho: 8.79 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 30.397

paws_wiki / labeled_swap_raw

  • A inscrição Config: subconjunto: labeled_swap tokenized: Falso

  • Dataset tamanho: 8.60 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 30.397

paws_wiki / unlabeled_final_tokenized

  • A inscrição Config: subconjunto: unlabeled_final tokenized: True

  • Dataset size: 177.89 MiB

  • Cache-Auto ( documentação ): Sim (validação), Só quando shuffle_files=False (trem)

  • desdobramentos:

Dividir Exemplos
'train' 645.652
'validation' 10.000