amazon_reviews_multi

ข้อมูลอ้างอิง:

all_languages

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/all_languages')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 30000
'train' 120,000
'validation' 30000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

เดอ

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/de')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 5000
'train' 20000
'validation' 5000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

en

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/en')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 5000
'train' 20000
'validation' 5000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

เอส

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/es')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 5000
'train' 20000
'validation' 5000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

เฝอ

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/fr')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 5000
'train' 20000
'validation' 5000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

จ๋า

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/ja')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 5000
'train' 20000
'validation' 5000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

จื่อ

ใช้คำสั่งต่อไปนี้เพื่อโหลดชุดข้อมูลนี้ใน TFDS:

ds = tfds.load('huggingface:amazon_reviews_multi/zh')
  • คำอธิบาย :
We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and November 1, 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID and the coarse-grained product category (e.g. ‘books’, ‘appliances’, etc.) The corpus is balanced across stars, so each star rating constitutes 20% of the reviews in each language.

For each language, there are 200,000, 5,000 and 5,000 reviews in the training, development and test sets respectively. The maximum number of reviews per reviewer is 20 and the maximum number of reviews per product is 20. All reviews are truncated after 2,000 characters, and all reviews are at least 20 characters long.

Note that the language of a review does not necessarily match the language of its marketplace (e.g. reviews from amazon.de are primarily written in German, but could also be written in English, etc.). For this reason, we applied a language detection algorithm based on the work in Bojanowski et al. (2017) to determine the language of the review text and we removed reviews that were not written in the expected language.
  • ใบอนุญาต : เมื่อเข้าถึงคลังคำวิจารณ์ของ Amazon หลายภาษา ("คลังคำวิจารณ์") แสดงว่าคุณตกลงว่าคลังคำวิจารณ์เป็นบริการของ Amazon ภายใต้เงื่อนไขการใช้งาน Amazon.com ( https://www.amazon.com/gp/help/ customer/display.html/ref=footer_cou?ie=UTF8&nodeId=508088 ) และคุณตกลงที่จะผูกพันกับพวกเขา โดยมีเงื่อนไขเพิ่มเติมดังต่อไปนี้:

นอกเหนือจากสิทธิ์ใบอนุญาตที่ได้รับภายใต้เงื่อนไขการใช้งานแล้ว Amazon หรือผู้ให้บริการเนื้อหายังมอบใบอนุญาตแบบจำกัด ไม่ผูกขาด ไม่สามารถถ่ายโอนได้ ไม่สามารถอนุญาตช่วง และเพิกถอนได้ให้คุณในการเข้าถึงและใช้ Reviews Corpus เพื่อวัตถุประสงค์ในการวิจัยทางวิชาการ คุณไม่สามารถขายต่อ ตีพิมพ์ซ้ำ หรือใช้ในเชิงพาณิชย์ของ Reviews Corpus หรือเนื้อหา รวมถึงการใช้ Reviews Corpus เพื่อการวิจัยเชิงพาณิชย์ เช่น การวิจัยที่เกี่ยวข้องกับเงินทุนหรือสัญญาที่ปรึกษา การฝึกงาน หรือความสัมพันธ์อื่นๆ ที่ผลลัพธ์ มีค่าธรรมเนียมหรือส่งไปยังองค์กรที่แสวงหาผลกำไร คุณไม่สามารถ (ก) เชื่อมโยงหรือเชื่อมโยงเนื้อหาในคลังคำวิจารณ์กับข้อมูลส่วนบุคคลใดๆ (รวมถึงบัญชีลูกค้าของ Amazon) หรือ (ข) พยายามระบุตัวตนของผู้เขียนเนื้อหาใดๆ ในคลังคำวิจารณ์ หากคุณละเมิดเงื่อนไขใดๆ ที่กล่าวมา ใบอนุญาตของคุณในการเข้าถึงและใช้ Reviews Corpus จะยุติลงโดยอัตโนมัติโดยไม่กระทบต่อสิทธิ์หรือการเยียวยาอื่นๆ ที่ Amazon อาจมี

  • เวอร์ชัน : 1.0.0
  • แยก :
แยก ตัวอย่าง
'test' 5000
'train' 20000
'validation' 5000
  • คุณสมบัติ :
{
    "review_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "reviewer_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "stars": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "review_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "review_title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "language": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "product_category": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}