tlc

Người giới thiệu:

tlcv1.0

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:tlc/tlcv1.0')
 • Sự miêu tả :
Thai Literature Corpora (TLC): Corpora of machine-ingestible Thai classical literature texts.

Release: 6/25/19

It consists of two datasets:

## TLC set
It is texts from [Vajirayana Digital Library](https://vajirayana.org/), stored by chapters and stanzas (non-tokenized).

tlc v.2.0 (6/17/19 : a total of 34 documents, 292,270 lines, 31,790,734 characters)
tlc v.1.0 (6/11/19 : a total of 25 documents, 113,981 lines, 28,775,761 characters)

## TNHC set
It is texts from Thai National Historical Corpus, stored by lines (manually tokenized).

tnhc v.1.0 (6/25/19 : a total of 47 documents, 756,478 lines, 13,361,142 characters)
 • Giấy phép : Không có giấy phép được biết đến
 • Phiên bản : 1.0.0
 • Chia tách :
Tách ra Ví dụ
'train' 1
 • Đặc trưng :
{
  "ch_num": {
    "dtype": "string",
    "id": null,
    "_type": "Value"
  },
  "title": {
    "dtype": "string",
    "id": null,
    "_type": "Value"
  },
  "text": {
    "feature": {
      "feature": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
      },
      "length": -1,
      "id": null,
      "_type": "Sequence"
    },
    "length": -1,
    "id": null,
    "_type": "Sequence"
  }
}

tlcv2.0

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:tlc/tlcv2.0')
 • Sự miêu tả :
Thai Literature Corpora (TLC): Corpora of machine-ingestible Thai classical literature texts.

Release: 6/25/19

It consists of two datasets:

## TLC set
It is texts from [Vajirayana Digital Library](https://vajirayana.org/), stored by chapters and stanzas (non-tokenized).

tlc v.2.0 (6/17/19 : a total of 34 documents, 292,270 lines, 31,790,734 characters)
tlc v.1.0 (6/11/19 : a total of 25 documents, 113,981 lines, 28,775,761 characters)

## TNHC set
It is texts from Thai National Historical Corpus, stored by lines (manually tokenized).

tnhc v.1.0 (6/25/19 : a total of 47 documents, 756,478 lines, 13,361,142 characters)
 • Giấy phép : Không có giấy phép được biết đến
 • Phiên bản : 2.0.0
 • Chia tách :
Tách ra Ví dụ
'train' 1
 • Đặc trưng :
{
  "ch_num": {
    "dtype": "string",
    "id": null,
    "_type": "Value"
  },
  "title": {
    "dtype": "string",
    "id": null,
    "_type": "Value"
  },
  "text": {
    "feature": {
      "feature": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
      },
      "length": -1,
      "id": null,
      "_type": "Sequence"
    },
    "length": -1,
    "id": null,
    "_type": "Sequence"
  }
}

tnhcv1.0

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:tlc/tnhcv1.0')
 • Sự miêu tả :
Thai Literature Corpora (TLC): Corpora of machine-ingestible Thai classical literature texts.

Release: 6/25/19

It consists of two datasets:

## TLC set
It is texts from [Vajirayana Digital Library](https://vajirayana.org/), stored by chapters and stanzas (non-tokenized).

tlc v.2.0 (6/17/19 : a total of 34 documents, 292,270 lines, 31,790,734 characters)
tlc v.1.0 (6/11/19 : a total of 25 documents, 113,981 lines, 28,775,761 characters)

## TNHC set
It is texts from Thai National Historical Corpus, stored by lines (manually tokenized).

tnhc v.1.0 (6/25/19 : a total of 47 documents, 756,478 lines, 13,361,142 characters)
 • Giấy phép : Không có giấy phép được biết đến
 • Phiên bản : 1.0.0
 • Chia tách :
Tách ra Ví dụ
'train' 152
 • Đặc trưng :
{
  "text": {
    "feature": {
      "dtype": "string",
      "id": null,
      "_type": "Value"
    },
    "length": -1,
    "id": null,
    "_type": "Sequence"
  }
}