amazon_reviews_multi

참조:

모든 언어

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 30000
'train' 1200000
'validation' 30000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ko

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

에스

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

정말로

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

다음 명령을 사용하여 TFDS에서 이 데이터세트를 로드합니다.

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • 설명 :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

사용 조건에 따라 부여된 라이선스 권한 외에도 Amazon 또는 해당 콘텐츠 제공업체는 학술 연구 목적으로 리뷰 코퍼스에 액세스하고 사용할 수 있는 제한적이고 비독점적이며 양도 불가능하고 2차 라이선스가 부여되지 않으며 취소 가능한 라이선스를 부여합니다. 자금 조달 또는 컨설팅 계약, 인턴십 또는 결과가 도출되는 기타 관계와 관련된 연구와 같은 상업적 연구를 위한 리뷰 코퍼스의 사용을 포함하여 리뷰 코퍼스 또는 그 콘텐츠를 재판매, 재출판 또는 상업적으로 사용할 수 없습니다. 유료로 제공되거나 영리 단체에 전달됩니다. 귀하는 (a) 리뷰 코퍼스의 콘텐츠를 개인 정보(아마존 고객 계정 포함)와 연결 또는 연결하거나 (b) 리뷰 코퍼스의 콘텐츠 작성자의 신원을 확인하려고 시도할 수 없습니다. 전술한 조건 중 하나를 위반하는 경우 리뷰 코퍼스에 액세스하고 사용할 수 있는 라이선스는 Amazon이 가질 수 있는 다른 권리 또는 구제 수단을 침해하지 않고 자동으로 종료됩니다.

  • 버전 : 1.0.0
  • 분할 :
나뉘다
'test' 5000
'train' 200000
'validation' 5000
  • 특징 :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}