paws_x_wiki

 • opis :

Ten zestaw danych zawiera 23 659 par ewaluacyjnych PAWS przetłumaczonych przez człowieka i 296 406 par szkoleniowych przetłumaczonych maszynowo w sześciu typologicznie różnych językach:

 • Francuski
 • hiszpański
 • Niemiecki
 • chiński
 • język japoński
 • koreański

Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification na stronie https://arxiv.org/abs/1908.11828

Podobnie jak PAWS Dataset, przykłady są podzielone na sekcje Train/Dev/Test. Wszystkie pliki są w formacie tsv z czterema kolumnami:

 1. id : unikalny identyfikator dla każdej pary.
 2. sentence1 : Pierwsze zdanie.
 3. sentence2 2 : Drugie zdanie.
 4. (noisy_)label : (Noisy) etykieta dla każdej pary.

Każda etykieta ma dwie możliwe wartości: 0 wskazuje, że para ma inne znaczenie, a 1 oznacza, że ​​para jest parafrazą.

FeaturesDict({
  'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
  'sentence1': Text(shape=(), dtype=string),
  'sentence2': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
zdanie 1 Tekst strunowy
zdanie2 Tekst strunowy
@InProceedings{pawsx2019emnlp,
 title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
 author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
 booktitle = {Proc. of EMNLP},
 year = {2019}
}

paws_x_wiki/de (domyślna konfiguracja)

 • Opis konfiguracji : Przetłumaczono na de

 • Rozmiar zestawu danych : 15.27 MiB

 • Podziały :

Podział Przykłady
'test' 2000
'train' 49380
'validation' 2000

paws_x_wiki/pl

 • Opis konfiguracji : Przetłumaczono na en

 • Rozmiar zestawu danych : 14.59 MiB

 • Podziały :

Podział Przykłady
'test' 2000
'train' 49175
'validation' 2000

paws_x_wiki/es

 • Opis konfiguracji : Przetłumaczono na es

 • Rozmiar zestawu danych : 15.27 MiB

 • Podziały :

Podział Przykłady
'test' 2000
'train' 49401
'validation' 1961

paws_x_wiki/fr

 • Opis konfiguracji : Przetłumaczono na fr

 • Rozmiar zestawu danych : 15.79 MiB

 • Podziały :

Podział Przykłady
'test' 2000
'train' 49399
'validation' 1988

paws_x_wiki/ja

 • Opis konfiguracji : Przetłumaczono na ja

 • Rozmiar zestawu danych : 17.77 MiB

 • Podziały :

Podział Przykłady
'test' 2000
'train' 49401
'validation' 2000

paws_x_wiki/ko

 • Opis konfiguracji : Przetłumaczone na ko

 • Rozmiar zestawu danych : 16.42 MiB

 • Podziały :

Podział Przykłady
'test' 1999
'train' 49164
'validation' 2000

paws_x_wiki/zh

 • Opis konfiguracji : Przetłumaczono na zh

 • Rozmiar zestawu danych : 13.20 MiB

 • Podziały :

Podział Przykłady
'test' 2000
'train' 49401
'validation' 2000