amazon_reviews_multi

Bibliografia:

wszystkie języki

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 30000
'train' 1200000
'validation' 30000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

de

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 5000
'train' 200000
'validation' 5000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

en

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 5000
'train' 200000
'validation' 5000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

tak

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 5000
'train' 200000
'validation' 5000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

fr

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 5000
'train' 200000
'validation' 5000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

ja

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 5000
'train' 200000
'validation' 5000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

zh

Użyj następującego polecenia, aby załadować ten zestaw danych w TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • Opis :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.

Oprócz praw licencyjnych przyznanych zgodnie z Warunkami użytkowania, Amazon lub jego dostawcy treści udzielają użytkownikowi ograniczonej, niewyłącznej, nieprzenoszalnej, niepodlegającej podlicencjonowaniu, odwołalnej licencji na dostęp do Korpusu recenzji i korzystanie z niego do celów badań naukowych. Nie możesz odsprzedawać, ponownie publikować ani wykorzystywać w celach komercyjnych Korpusu recenzji lub jego zawartości, w tym wykorzystywania Korpusu recenzji do badań komercyjnych, takich jak badania związane z umową o finansowanie lub konsultację, stażem lub innymi relacjami, w których wyniki są dostarczane za opłatą lub dostarczane do organizacji nastawionej na zysk. Użytkownik nie może (a) łączyć ani kojarzyć treści w Korpusie recenzji z jakimikolwiek danymi osobowymi (w tym kontami klientów Amazon) ani (b) próbować ustalić tożsamość autora jakichkolwiek treści w Korpusie recenzji. Jeśli naruszysz którykolwiek z powyższych warunków, Twoja licencja na dostęp i korzystanie z Korpusu Opinii automatycznie wygaśnie bez uszczerbku dla jakichkolwiek innych praw lub środków, jakie może mieć Amazon.

  • Wersja : 1.0.0
  • Dzieli :
Rozdzielać Przykłady
'test' 5000
'train' 200000
'validation' 5000
  • Cechy :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}