Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

paws_wiki

  • opis:

W istniejących zestawach danych identyfikujących parafrazy brakuje par zdań, które w dużym stopniu pokrywają się leksykalnie, nie będąc parafrazami. Modele wytrenowane na takich danych nie rozróżniają par, takich jak loty z Nowego Jorku na Florydę i loty z Florydy do Nowego Jorku. Ten zestaw danych zawiera 108 463 par oznaczonych przez człowieka i 656k oznaczonych hałaśliwie, które charakteryzują się znaczeniem struktury modelowania, kontekstu i informacji o kolejności słów dla problemu identyfikacji parafraz.

W celu uzyskania dalszych informacji, patrz papier towarzyszących: łapy: Parafrazując przeciwnikami z Worda Mieszanie w https://arxiv.org/abs/1904.01130

Ten korpus zawiera pary wygenerowane ze stron Wikipedii, zawierające pary wygenerowane zarówno za pomocą metody zamiany słów, jak i tłumaczenia zwrotnego. Wszystkie pary mają ludzki osąd zarówno w zakresie parafrazowania, jak i płynności, i są podzielone na sekcje Trening/Dev/Test.

Wszystkie pliki są w formacie tsv z czterema kolumnami:

id Unikalny identyfikator dla każdej pary zdania1 Pierwsze zdanie2 Drugie zdanie (hałaśliwe_)etykieta (hałaśliwe) etykieta dla każdej pary

Każda etykieta ma dwie możliwe wartości: 0 oznacza, że ​​para ma inne znaczenie, a 1 oznacza, że ​​para jest parafrazą.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (default config)

  • Opis config: Podzbiór: labeled_final tokenized: True

  • Zbiór danych rozmiar: 17.96 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 8000
'train' 49,401
'validation' 8000

paws_wiki / labeled_final_raw

  • Opis config: Podzbiór: labeled_final tokenized: Fałsz

  • Zbiór danych rozmiar: 17.57 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 8000
'train' 49,401
'validation' 8000

paws_wiki / labeled_swap_tokenized

  • Opis config: Podzbiór: labeled_swap tokenized: True

  • Zbiór danych Rozmiar: 8.79 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'train' 30 397

paws_wiki / labeled_swap_raw

  • Opis config: Podzbiór: labeled_swap tokenized: Fałsz

  • Zbiór danych Rozmiar: 8.60 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'train' 30 397

paws_wiki / unlabeled_final_tokenized

  • Opis config: Podzbiór: unlabeled_final tokenized: True

  • Zbiór danych rozmiar: 177.89 MiB

  • Auto-buforowane ( dokumentacja ): Tak (walidacja) Dopiero gdy shuffle_files=False (pociąg)

  • dzieli:

Podział Przykłady
'train' 645,652
'validation' 10 000