Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

patas_wiki

Descrição :

Os conjuntos de dados de identificação de paráfrases existentes carecem de pares de sentenças com alta sobreposição lexical sem serem paráfrases. Os modelos treinados com esses dados falham em distinguir pares como voos de Nova York para a Flórida e voos da Flórida para Nova York. Este conjunto de dados contém 108.463 pares rotulados por humanos e 656k pares rotulados ruidosamente que apresentam a importância da estrutura de modelagem, contexto e informações de ordem de palavras para o problema de identificação de paráfrase.

Para mais detalhes, consulte o documento anexo: PAWS: Paraphrase Adversaries from Word Scrambling em https://arxiv.org/abs/1904.01130

Este corpus contém pares gerados a partir de páginas da Wikipédia, contendo pares gerados a partir de métodos de troca de palavras e retrotradução. Todos os pares têm julgamentos humanos sobre paráfrase e fluência e são divididos em seções de treinamento/desenvolvimento/teste.

Todos os arquivos estão no formato tsv com quatro colunas:

id : Um id exclusivo para cada par.
sentence1 : A primeira frase.
sentence2 : A segunda frase.
(noisy_)label : rótulo (ruidoso) para cada par.

Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research-datasets/paws
Código -fonte: tfds.datasets.paws_wiki.Builder
Versões :
- 1.0.0 : Versão inicial.
- 1.1.0 (padrão): adiciona configurações a diferentes subconjuntos e oferece suporte a texto bruto.
Tamanho do download : 57.47 MiB
Estrutura de recursos :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
etiqueta	ClassLabel	int64
frase1	Texto	corda
frase2	Texto	corda

Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não suportado.
Citação :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (configuração padrão)

Descrição da configuração : Subconjunto: rotulado_final tokenizado: Verdadeiro
Tamanho do conjunto de dados : 17.96 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'test'`	8.000
`'train'`	49.401
`'validation'`	8.000

Exemplos ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

Descrição da configuração : Subconjunto: rotulado_final tokenizado: Falso
Tamanho do conjunto de dados : 17.57 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'test'`	8.000
`'train'`	49.401
`'validation'`	8.000

Exemplos ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

Descrição da configuração : Subconjunto: rotulado_swap tokenizado: Verdadeiro
Tamanho do conjunto de dados : 8.79 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	30.397

Exemplos ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

Descrição da configuração : Subconjunto: rotulado_swap tokenizado: Falso
Tamanho do conjunto de dados : 8.60 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	30.397

Exemplos ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

Descrição da configuração : Subconjunto: unlabeled_final tokenizado: Verdadeiro
Tamanho do conjunto de dados : 177.89 MiB
Armazenado automaticamente em cache ( documentação ): Sim (validação), somente quando shuffle_files=False (train)
Divisões :

Dividir	Exemplos
`'train'`	645.652
`'validation'`	10.000

Exemplos ( tfds.as_dataframe ):

patas_wiki Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.