conceptnet5

Người giới thiệu:

khái niệmnet5

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:conceptnet5/conceptnet5')
  • Sự miêu tả :
\ This dataset is designed to provide training data
for common sense relationships pulls together from various
sources. 

The dataset is multi-lingual. See langauge codes and language info
here: https://github.com/commonsense/conceptnet5/wiki/Languages


This dataset provides an interface for the conceptnet5 csv file, and
some (but not all) of the raw text data used to build conceptnet5:
omcsnet_sentences_free.txt, and omcsnet_sentences_more.txt.

One use of this dataset would be to learn to extract the conceptnet
relationship from the omcsnet sentences.

Conceptnet5 has 34,074,917 relationships. Of those relationships,
there are 2,176,099 surface text sentences related to those 2M
entries.

omcsnet_sentences_free has 898,161 lines. omcsnet_sentences_more has
2,001,736 lines.

Original downloads are available here
https://github.com/commonsense/conceptnet5/wiki/Downloads. For more
information, see: https://github.com/commonsense/conceptnet5/wiki

The omcsnet data comes with the following warning from the authors of
the above site: 

Remember: this data comes from various forms of
crowdsourcing. Sentences in these files are not necessarily true,
useful, or appropriate.
  • Giấy phép : Tác phẩm này bao gồm dữ liệu từ ConceptNet 5, được biên soạn bởi Commonsense Computing Initiative. ConceptNet 5 được cung cấp miễn phí theo giấy phép Creative Commons Ghi công-Chia sẻ tương tự (CC BY SA 3.0) từ http://conceptnet.io

Dữ liệu đi kèm được tạo ra bởi những người đóng góp cho các dự án Commonsense Computing, những người đóng góp cho các dự án Wikimedia, DBPedia, OpenCyc, Trò chơi có mục đích, WordNet của Đại học Princeton, WordNet đa ngôn ngữ mở của Francis Bond và JMDict của Jim Breen.

Có nhiều giấy phép khác. Xem: https://github.com/commonsense/conceptnet5/wiki/Copying-and-sharing-ConceptNet

  • Phiên bản : 5.7.0
  • Chia tách :
Tách ra Ví dụ
'train' 34074917
  • Đặc trưng :
{
    "sentence": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "full_rel": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "rel": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "arg1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "arg2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "lang": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "extra_info": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "weight": {
        "dtype": "float32",
        "id": null,
        "_type": "Value"
    }
}

omcs_sentences_free

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:conceptnet5/omcs_sentences_free')
  • Sự miêu tả :
\ This dataset is designed to provide training data
for common sense relationships pulls together from various
sources. 

The dataset is multi-lingual. See langauge codes and language info
here: https://github.com/commonsense/conceptnet5/wiki/Languages


This dataset provides an interface for the conceptnet5 csv file, and
some (but not all) of the raw text data used to build conceptnet5:
omcsnet_sentences_free.txt, and omcsnet_sentences_more.txt.

One use of this dataset would be to learn to extract the conceptnet
relationship from the omcsnet sentences.

Conceptnet5 has 34,074,917 relationships. Of those relationships,
there are 2,176,099 surface text sentences related to those 2M
entries.

omcsnet_sentences_free has 898,161 lines. omcsnet_sentences_more has
2,001,736 lines.

Original downloads are available here
https://github.com/commonsense/conceptnet5/wiki/Downloads. For more
information, see: https://github.com/commonsense/conceptnet5/wiki

The omcsnet data comes with the following warning from the authors of
the above site: 

Remember: this data comes from various forms of
crowdsourcing. Sentences in these files are not necessarily true,
useful, or appropriate.
  • Giấy phép : Tác phẩm này bao gồm dữ liệu từ ConceptNet 5, được biên soạn bởi Commonsense Computing Initiative. ConceptNet 5 được cung cấp miễn phí theo giấy phép Creative Commons Ghi công-Chia sẻ tương tự (CC BY SA 3.0) từ http://conceptnet.io

Dữ liệu đi kèm được tạo ra bởi những người đóng góp cho các dự án Commonsense Computing, những người đóng góp cho các dự án Wikimedia, DBPedia, OpenCyc, Trò chơi có mục đích, WordNet của Đại học Princeton, WordNet đa ngôn ngữ mở của Francis Bond và JMDict của Jim Breen.

Có nhiều giấy phép khác. Xem: https://github.com/commonsense/conceptnet5/wiki/Copying-and-sharing-ConceptNet

  • Phiên bản : 5.7.0
  • Chia tách :
Tách ra Ví dụ
'train' 898160
  • Đặc trưng :
{
    "sentence": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "raw_data": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "lang": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

omcs_sentences_more

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:conceptnet5/omcs_sentences_more')
  • Sự miêu tả :
\ This dataset is designed to provide training data
for common sense relationships pulls together from various
sources. 

The dataset is multi-lingual. See langauge codes and language info
here: https://github.com/commonsense/conceptnet5/wiki/Languages


This dataset provides an interface for the conceptnet5 csv file, and
some (but not all) of the raw text data used to build conceptnet5:
omcsnet_sentences_free.txt, and omcsnet_sentences_more.txt.

One use of this dataset would be to learn to extract the conceptnet
relationship from the omcsnet sentences.

Conceptnet5 has 34,074,917 relationships. Of those relationships,
there are 2,176,099 surface text sentences related to those 2M
entries.

omcsnet_sentences_free has 898,161 lines. omcsnet_sentences_more has
2,001,736 lines.

Original downloads are available here
https://github.com/commonsense/conceptnet5/wiki/Downloads. For more
information, see: https://github.com/commonsense/conceptnet5/wiki

The omcsnet data comes with the following warning from the authors of
the above site: 

Remember: this data comes from various forms of
crowdsourcing. Sentences in these files are not necessarily true,
useful, or appropriate.
  • Giấy phép : Tác phẩm này bao gồm dữ liệu từ ConceptNet 5, được biên soạn bởi Commonsense Computing Initiative. ConceptNet 5 được cung cấp miễn phí theo giấy phép Creative Commons Ghi công-Chia sẻ tương tự (CC BY SA 3.0) từ http://conceptnet.io

Dữ liệu đi kèm được tạo ra bởi những người đóng góp cho các dự án Commonsense Computing, những người đóng góp cho các dự án Wikimedia, DBPedia, OpenCyc, Trò chơi có mục đích, WordNet của Đại học Princeton, WordNet đa ngôn ngữ mở của Francis Bond và JMDict của Jim Breen.

Có nhiều giấy phép khác. Xem: https://github.com/commonsense/conceptnet5/wiki/Copying-and-sharing-ConceptNet

  • Phiên bản : 5.7.0
  • Chia tách :
Tách ra Ví dụ
'train' 2001735
  • Đặc trưng :
{
    "sentence": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "raw_data": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "lang": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}