amazon_reviews_multi

Referanslar:

Bütün diller

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 30000
'train' 1200000
'validation' 30000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

de

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 5000
'train' 200000
'validation' 5000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tr

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 5000
'train' 200000
'validation' 5000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

es

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 5000
'train' 200000
'validation' 5000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

fr

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 5000
'train' 200000
'validation' 5000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

evet

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 5000
'train' 200000
'validation' 5000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

Bu veri kümesini TFDS'ye yüklemek için aşağıdaki komutu kullanın:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • Açıklama :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Kullanım Koşulları kapsamında verilen lisans haklarına ek olarak, Amazon veya içerik sağlayıcıları, akademik araştırma amacıyla İncelemeler Derlemesine erişmeniz ve kullanmanız için size sınırlı, münhasır olmayan, devredilemez, alt lisansı verilemeyen, geri alınabilir bir lisans verir. Bir finansman veya danışmanlık sözleşmesi, staj veya sonuçların ortaya çıktığı diğer ilişkiler gibi ticari araştırmalar için Review Corpus'un kullanımı dahil olmak üzere, Review Corpus'u veya içeriklerini yeniden satamaz, yeniden yayınlayamaz veya herhangi bir ticari amaçla kullanamazsınız. bir ücret karşılığında sağlanır veya kar amacı gütmeyen bir kuruluşa teslim edilir. (a) İncelemeler Derlemesi'ndeki içeriği herhangi bir kişisel bilgiyle (Amazon müşteri hesapları dahil) ilişkilendiremez veya ilişkilendiremezsiniz veya (b) İncelemeler Derlemesi'ndeki herhangi bir içeriğin yazarının kimliğini belirlemeye çalışamazsınız. Yukarıdaki koşullardan herhangi birini ihlal ederseniz, Amazon'un sahip olabileceği diğer haklara veya çözüm yollarına halel getirmeksizin, İncelemeler Derlemesine erişim ve kullanım lisansınız otomatik olarak feshedilecektir.

  • Sürüm : 1.0.0
  • Bölmeler :
Bölmek Örnekler
'test' 5000
'train' 200000
'validation' 5000
  • Özellikler :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}