paws_wiki

  • opis :

W istniejących zbiorach danych do identyfikacji parafraz brakuje par zdań, które mają duże nakładanie się leksykalne i nie są parafrazami. Modele trenowane na takich danych nie rozróżniają par, takich jak loty z Nowego Jorku na Florydę i loty z Florydy do Nowego Jorku. Ten zestaw danych zawiera 108 463 par oznaczonych przez człowieka i 656 tys. par oznaczonych hałaśliwie, które przedstawiają znaczenie struktury modelowania, kontekstu i informacji o kolejności wyrazów dla problemu identyfikacji parafraz.

Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS: Paraphrase Adversaries from Word Scrambling na https://arxiv.org/abs/1904.01130

Ten korpus zawiera pary wygenerowane ze stron Wikipedii, zawierające pary wygenerowane zarówno metodą zamiany słów, jak i tłumaczenia zwrotnego. Wszystkie pary mają ludzkie osądy zarówno w zakresie parafrazowania, jak i płynności, i są podzielone na sekcje Train/Dev/Test.

Wszystkie pliki są w formacie tsv z czterema kolumnami:

  1. id : unikalny identyfikator dla każdej pary.
  2. sentence1 : Pierwsze zdanie.
  3. sentence2 2 : Drugie zdanie.
  4. (noisy_)label : (Noisy) etykieta dla każdej pary.

Każda etykieta ma dwie możliwe wartości: 0 oznacza, że ​​para ma inne znaczenie, a 1 oznacza, że ​​para jest parafrazą.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
zdanie 1 Tekst strunowy
zdanie2 Tekst strunowy
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (domyślna konfiguracja)

  • Opis konfiguracji: Podzbiór: labeled_final tokenized: True

  • Rozmiar zestawu danych : 17.96 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 8000
'train' 49401
'validation' 8000

paws_wiki/labeled_final_raw

  • Opis konfiguracji: Podzbiór: labeled_final tokenized: False

  • Rozmiar zestawu danych : 17.57 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 8000
'train' 49401
'validation' 8000

paws_wiki/labeled_swap_tokenized

  • Opis konfiguracji: Podzbiór: labeled_swap tokenized: True

  • Rozmiar zestawu danych : 8.79 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 30397

paws_wiki/labeled_swap_raw

  • Opis konfiguracji: Podzbiór: labeled_swap tokenizowany: Fałsz

  • Rozmiar zestawu danych : 8.60 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 30397

paws_wiki/unlabeled_final_tokenized

  • Opis konfiguracji: Podzbiór: unlabeled_final tokenized: True

  • Rozmiar zestawu danych : 177.89 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'train' 645652
'validation' 10 000