paws_wiki

opis :

W istniejących zbiorach danych do identyfikacji parafraz brakuje par zdań, które mają duże nakładanie się leksykalne i nie są parafrazami. Modele trenowane na takich danych nie rozróżniają par, takich jak loty z Nowego Jorku na Florydę i loty z Florydy do Nowego Jorku. Ten zestaw danych zawiera 108 463 par oznaczonych przez człowieka i 656 tys. par oznaczonych hałaśliwie, które przedstawiają znaczenie struktury modelowania, kontekstu i informacji o kolejności wyrazów dla problemu identyfikacji parafraz.

Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS: Paraphrase Adversaries from Word Scrambling na https://arxiv.org/abs/1904.01130

Ten korpus zawiera pary wygenerowane ze stron Wikipedii, zawierające pary wygenerowane zarówno metodą zamiany słów, jak i tłumaczenia zwrotnego. Wszystkie pary mają ludzkie osądy zarówno w zakresie parafrazowania, jak i płynności, i są podzielone na sekcje Train/Dev/Test.

Wszystkie pliki są w formacie tsv z czterema kolumnami:

id : unikalny identyfikator dla każdej pary.
sentence1 : Pierwsze zdanie.
sentence2 2 : Drugie zdanie.
(noisy_)label : (Noisy) etykieta dla każdej pary.

Każda etykieta ma dwie możliwe wartości: 0 oznacza, że para ma inne znaczenie, a 1 oznacza, że para jest parafrazą.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research-datasets/paws
Kod źródłowy : tfds.datasets.paws_wiki.Builder
Wersje :
- 1.0.0 : Wersja początkowa.
- 1.1.0 (domyślnie): Dodaje konfiguracje do innego podzbioru i obsługuje nieprzetworzony tekst.
Rozmiar pliku do pobrania : 57.47 MiB
Struktura funkcji :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
etykieta	Etykieta klasy	int64
zdanie 1	Tekst	strunowy
zdanie2	Tekst	strunowy

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (domyślna konfiguracja)

Opis konfiguracji: Podzbiór: labeled_final tokenized: True
Rozmiar zestawu danych : 17.96 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Rozdzielać	Przykłady
`'test'`	8000
`'train'`	49401
`'validation'`	8000

Przykłady ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

Opis konfiguracji: Podzbiór: labeled_final tokenized: False
Rozmiar zestawu danych : 17.57 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Rozdzielać	Przykłady
`'test'`	8000
`'train'`	49401
`'validation'`	8000

Przykłady ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

Opis konfiguracji: Podzbiór: labeled_swap tokenized: True
Rozmiar zestawu danych : 8.79 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Rozdzielać	Przykłady
`'train'`	30397

Przykłady ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

Opis konfiguracji: Podzbiór: labeled_swap tokenizowany: Fałsz
Rozmiar zestawu danych : 8.60 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Rozdzielać	Przykłady
`'train'`	30397

Przykłady ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

Opis konfiguracji: Podzbiór: unlabeled_final tokenized: True
Rozmiar zestawu danych : 177.89 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)
Podziały :

Rozdzielać	Przykłady
`'train'`	645652
`'validation'`	10 000

Przykłady ( tfds.as_dataframe ):