مراجع:
unshuffled_deduplicated_af
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 130640 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_als
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 4518 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_arz
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 79928 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_an
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 2025 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ast
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 5343 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ba
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 27050 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_am
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 43102 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_as
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 9212 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_azb
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 9985 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_be
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 307405 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bo
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 15762 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bxr
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 36 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ceb
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 26145 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_az
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 626796 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bcl
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cy
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 98225 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dsb
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 37 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bn
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1114481 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bs
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 702 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ce
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 2984 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cv
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 10130 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_diq
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eml
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 80 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_et
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1172041 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bg
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 3398679 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bpy
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1770 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ca
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این دادهها تحت این طرح مجوز منتشر میشوند. ما مالک هیچ یک از متنهایی نیستیم که این دادهها از آن استخراج شدهاند. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 2458067 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ckb
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 68210 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ar
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح مجوز منتشر می شوند. ما مالک هیچ یک از متن هایی نیستیم که این داده ها از آن استخراج شده است. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- مطالبی را که ادعا میشود نقضکننده حقوق است و اطلاعاتی که بهطور معقولی برای یافتن مطالب به ما امکان میدهد، به وضوح شناسایی کنید.
ما با حذف منابع آسیبدیده از نسخه بعدی مجموعه، درخواستهای قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 9006977 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_av
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این دادهها تحت این طرح مجوز منتشر میشوند. ما مالک هیچ یک از متنهایی نیستیم که این دادهها از آن استخراج شدهاند. ما بستهبندی واقعی این دادهها را تحت مجوز Creative Commons CC0 مجوز میدهیم ("بدون حقوق محفوظ است") http://creativecommons.org/publicdomain/zero/1.0/ تا آنجایی که طبق قانون ممکن است، اینریا تمام حق نسخهبرداری و یا مربوط به آن را لغو کرده است. حقوق همسایگی OSCAR این اثر از: فرانسه منتشر شده است.
اگر فکر می کنید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا بازتولید شود، لطفاً:
- با اطلاعات تماس دقیق مانند آدرس، شماره تلفن یا آدرس ایمیلی که می توان با شما تماس گرفت، به وضوح خود را شناسایی کنید.
- اثر دارای حق نسخه برداری که ادعا می شود نقض شده است را به وضوح شناسایی کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 360 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bar
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 4 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bh
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 82 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_br
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 14724 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_cbk
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_da
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 4771098 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_dv
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 17024 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eo
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 84752 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_fa
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 8203495 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fy
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 20661 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gn
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 68 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cs
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 12308039 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_hi
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1909387 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_hu
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 6582908 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ie
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 11 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_fr
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 59448891 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gd
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 3883 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_gu
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 169834 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_hsb
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 3084 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ia
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 529 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_io
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 617 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_jbo
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 617 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_km
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 108346 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ku
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 29054 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_la
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 18808 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_lmo
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1374 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_lv
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 843195 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_min
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 166 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_mr
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 212556 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_mwl
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- به طور واضح خود را با داده های تماس دقیق مانند آدرس ، شماره تلفن یا آدرس ایمیل که در آن می توانید با شما تماس بگیرید ، شناسایی کنید.
- به وضوح کار دارای حق چاپ را که ادعا می شود نقض شده است ، مشخص کنید.
- به روشنی مطالبی را که ادعا می شود نقض و اطلاعات کافی است ، مشخص کنید تا به ما اجازه دهد تا مواد را پیدا کنیم.
ما با از بین بردن منابع آسیب دیده از انتشار بعدی Corpus ، درخواست های قانونی را رعایت خواهیم کرد.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 7 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplated_nah
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
مجوز : این داده ها تحت این طرح صدور مجوز منتشر می شوند ، ما هیچ یک از متنی را که این داده ها از آن استخراج شده است ، نداریم. ما بسته بندی واقعی این داده ها را تحت مجوز Creative Commons CC0 ("هیچ حقوقی محفوظ") مجوز می دهیم . حقوق همسایه اسکار این اثر از: فرانسه منتشر شده است.
اگر در نظر بگیرید که داده های ما حاوی مطالبی است که متعلق به شما است و بنابراین نباید در اینجا تکثیر شود ، لطفا:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 58 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_new
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 2126 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_oc
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 6485 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pam
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 1 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ps
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 67921 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_it
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
- توضیحات :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
نسخه : 1.0.0
تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 28522082 |
- ویژگی ها :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id":