xquad

  • Mô tả :

XQuAD (Bộ dữ liệu trả lời câu hỏi đa ngôn ngữ) là một bộ dữ liệu chuẩn để đánh giá hiệu suất trả lời câu hỏi đa ngôn ngữ. Bộ dữ liệu bao gồm một tập hợp con gồm 240 đoạn văn và 1190 cặp câu hỏi-câu trả lời từ bộ phát triển của SQuAD v1.1 (Rajpurkar et al., 2016) cùng với các bản dịch chuyên nghiệp sang mười ngôn ngữ: Tây Ban Nha, Đức, Hy Lạp, Nga, Thổ Nhĩ Kỳ , tiếng Ả Rập, tiếng Việt, tiếng Thái, tiếng Trung và tiếng Hindi. Do đó, bộ dữ liệu hoàn toàn song song trên 11 ngôn ngữ. Để chạy XQuAD trong cài đặt zero-shot mặc định, hãy sử dụng dữ liệu xác thực và đào tạo SQuAD v1.1 tại đây: https://www.tensorflow.org/datasets/catalog/squad

Chúng tôi cũng bao gồm các phần tách "translate-train", "translate-dev" và "translate-test" cho từng ngôn ngữ không phải tiếng Anh từ XTREME (Hu et al., 2020). Chúng có thể được sử dụng để chạy XQuAD trong cài đặt "translate-train" hoặc "translate-test".

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
câu trả lời Sự phối hợp
câu trả lời/answer_start tenxơ int32
câu trả lời/văn bản Chữ sợi dây
định nghĩa bài văn Chữ sợi dây
Tôi tenxơ sợi dây
câu hỏi Chữ sợi dây
Tiêu đề Chữ sợi dây
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (cấu hình mặc định)

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'ar', với các phân tách translate-train/translate-dev/translate-test được dịch bằng máy từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 420.97 MiB

  • Kích thước tập dữ liệu : 134.83 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,541
'translate-test' 1.151
'translate-train' 86,787

xquad/de

  • Mô tả cấu hình : Phân tách thử nghiệm 'de' XQuAD, với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 127.04 MiB

  • Kích thước tập dữ liệu : 98.80 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,371
'translate-test' 1.168
'translate-train' 82,603

xquad/el

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'el', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 499.40 MiB

  • Kích thước tập dữ liệu : 157.90 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10.100
'translate-test' 1.182
'translate-train' 79,946

xquad/es

  • Mô tả cấu hình : Phần tách thử nghiệm của XQuAD 'es', với các phần tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 138.41 MiB

  • Kích thước tập dữ liệu : 104.96 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,566
'translate-test' 1.188
'translate-train' 87,488

xquad/xin chào

  • Mô tả cấu hình : XQuAD phân tách thử nghiệm 'hi', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 472.23 MiB

  • Kích thước tập dữ liệu : 207.85 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,536
'translate-test' 1.184
'translate-train' 85,804

xquad/ru

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'ru', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 513.80 MiB

  • Kích thước tập dữ liệu : 159.38 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,469
'translate-test' 1.190
'translate-train' 84,869

xquad/th

  • Mô tả cấu hình : Phân tách thử nghiệm 'thứ' của XQuAD, với các phân tách thử nghiệm translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 461.54 MiB

  • Kích thước tập dữ liệu : 199.57 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (kiểm tra, dịch-dev, dịch-kiểm tra), Chỉ khi shuffle_files=False (dịch-đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,516
'translate-test' 1.157
'translate-train' 85,846

xquad/tr

  • Mô tả cấu hình : XQuAD phân tách thử nghiệm 'tr', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 151.08 MiB

  • Kích thước tập dữ liệu : 97.56 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,535
'translate-test' 1.112
'translate-train' 86,511

xquad/vi

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'vi', với các phân tách translate-train/translate-dev/translate-test do máy dịch từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 218.09 MiB

  • Kích thước tập dữ liệu : 120.03 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,555
'translate-test' 1.178
'translate-train' 87,187

xquad/zh

  • Mô tả cấu hình : Phân tách thử nghiệm XQuAD 'zh', với các phân tách translate-train/translate-dev/translate-test được dịch bằng máy từ XTREME (Hu et al., 2020).

  • Kích thước tải xuống : 174.57 MiB

  • Kích thước tập dữ liệu : 80.79 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190
'translate-dev' 10,475
'translate-test' 1.186
'translate-train' 85.700

xquad/vi

  • Mô tả cấu hình : Phân tách kiểm tra XQuAD 'en'.

  • Kích thước tải xuống : 595.10 KiB

  • Kích thước tập dữ liệu : 1.19 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.190