opus

  • Mô tả :

OPUS là một bộ sưu tập các văn bản dịch từ trang web.

Tạo cấu hình của riêng bạn để chọn cặp dữ liệu/ngôn ngữ nào sẽ tải.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
de Chữ sợi dây
vi Chữ sợi dây
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/y tế (cấu hình mặc định)

  • Mô tả cấu hình : tài liệu y tế

  • Kích thước tải xuống : 34.29 MiB

  • Kích thước tập dữ liệu : 188.85 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 1.108.752

opus / pháp luật

  • Mô tả cấu hình : văn bản luật

  • Kích thước tải xuống : 46.99 MiB

  • Kích thước tập dữ liệu : 214.44 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 719,372

tác phẩm/kinh Koran

  • Mô tả cấu hình : tài liệu kinh Koran

  • Kích thước tải xuống : 35.42 MiB

  • Kích thước tập dữ liệu : 117.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 537.128

tác phẩm/CNTT

  • Mô tả cấu hình : Tài liệu CNTT

  • Kích thước tải xuống : 10.33 MiB

  • Kích thước tập dữ liệu : 42.51 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 347,817

opus/phụ đề

  • Mô tả cấu hình : tài liệu phụ đề

  • Kích thước tải xuống : 677.64 MiB

  • Kích thước tập dữ liệu : 2.01 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 22.512.639