the_pile_openwebtext2

Người giới thiệu:

văn bản thô

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:the_pile_openwebtext2/plain_text')
 • Sự miêu tả :
OpenWebText2 is an enhanced version of the original OpenWebTextCorpus covering all Reddit submissions from 2005 up until April 2020, with further months becoming available after the corresponding PushShift dump files are released.
 • Giấy phép : Không có giấy phép được biết đến
 • Phiên bản : 1.0.0
 • Chia tách :
Tách ra Ví dụ
'train' 17103059
 • Đặc trưng :
{
  "title": {
    "dtype": "string",
    "id": null,
    "_type": "Value"
  },
  "text": {
    "dtype": "string",
    "id": null,
    "_type": "Value"
  }
}