oscar

Người giới thiệu:

không xáo trộn_deduplicate_af

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 130640
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_als

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4518
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_arz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 79928
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_an

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2025
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ast

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5343
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ba

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 27050
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_am

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 43102
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_as

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9212
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_azb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9985
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_be

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 307405
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_bo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15762
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_bxr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 36
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ceb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 26145
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_az

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 626796
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_bcl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_cy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 98225
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_dsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 37
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_bn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1114481
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_bs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 702
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ce

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2984
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_cv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 10130
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_diq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_eml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 80
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_et

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1172041
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_bg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3398679
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_bpy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1770
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ca

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2458067
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ckb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 68210
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ar

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9006977
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_av

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 360
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_bar

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_bh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 82
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_br

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 14724
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_cbk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_da

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4771098
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_dv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17024
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_eo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 84752
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_fa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8203495
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_fy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 20661
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_gn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 68
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_cs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 12308039
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1909387
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6582908
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ie

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_fr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 59448891
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_gd

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3883
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_gu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 169834
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_hsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3084
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ia

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 529
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_io

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 617
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_jbo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 617
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_km

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 108346
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ku

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 29054
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_la

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 18808
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_lmo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1374
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 843195
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_min

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 166
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_mr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 212556
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_mwl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nah

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 58
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mới

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2126
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_oc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6485
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_pam

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ps

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 67921
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_it

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 28522082
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ka

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 372158
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ro

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5044757
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_scn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ko

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3675420
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_kw

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 68
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_lez

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1381
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lrc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 72
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_mg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 13343
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 453904
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ms

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 183443
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_myv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nds

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8714
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_nn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 109118
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_os

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2559
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_pms

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2859
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_qu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 411
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7121
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2820821
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 17610
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_so

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_sr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 645747
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ta

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 833101
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4694
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_tyv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 24
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_uz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15074
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_wa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 677
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_xmf

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2418
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_sv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11014487
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 56259
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_de

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 62398034
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_tr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11596446
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_el

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6521169
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_uk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7782375
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_vi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 9897709
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_wuu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 64
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_yo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 49
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_als

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_als')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7324
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_arz

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 158113
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_az

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_az')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 912330
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bcl

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1675515
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bs

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2143
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ce

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4042
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_cv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 20281
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_diq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_origin_eml

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 84
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_et

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_et')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2093621
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_zh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 41708901
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_an

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_an')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2449
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ast

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6999
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ba

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42551
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bg

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5869686
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bpy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 6046
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ca

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 4390754
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ckb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 103639
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_es

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 56326016
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_da

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_da')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7664010
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_dv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 21018
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_eo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 121168
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_fi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5326443
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ga

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 46493
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_gom

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 484
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 321484
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_hy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 396093
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ilo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1578
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 13704702
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 33053
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 106
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3264660
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 11197780
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ie

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 101
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ja

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 39496439
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_kk

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 338073
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_krc

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1377
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_ky

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 86561
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_li

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 118
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_lt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1737411
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mhr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2515
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 197878
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_mt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 16383
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_mzn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 917
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_ne

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 219334
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_no

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3229940
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_pa

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 87235
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_pnb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3463
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_rm

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 34
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sah

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 8555
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_si

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 120684
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sq

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 461598
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_sw

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 24803
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_th

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3749826
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_tt

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 82738
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_ur

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 428674
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicate_vo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3317
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_deduplicate_xal

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 36
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_không trùng lặp_yue

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_am

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_am')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 83663
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_as

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_as')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 14985
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_azb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 15446
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_be

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_be')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 586031
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 26795
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_bxr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 42
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ceb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 56248
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_cy

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 157698
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_dsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 65
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_fr

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 96742378
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gd

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 5799
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_gu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 240691
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_hsb

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 7959
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ia

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1040
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_io

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_io')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 694
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_jbo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 832
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_km

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_km')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 159363
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_ku

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 46535
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_la

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_la')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 94588
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lmo

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 1401
  • Đặc trưng :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không xáo trộn_origin_lv

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
  • Sự miêu tả :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Giấy phép : Những dữ liệu này được phát hành theo chương trình cấp phép này. Chúng tôi không sở hữu bất kỳ văn bản nào mà dữ liệu này được trích xuất. Chúng tôi cấp phép cho việc đóng gói thực tế những dữ liệu này theo giấy phép Creative Commons CC0 ("không có quyền nào được bảo lưu") http://creativecommons.org/publicdomain/zero/1.0/ Trong phạm vi có thể theo luật, Inria đã từ bỏ tất cả bản quyền và các quyền liên quan hoặc quyền lân cận đối với OSCAR Tác phẩm này được xuất bản từ: Pháp.

    Nếu bạn cho rằng dữ liệu của chúng tôi chứa tài liệu thuộc quyền sở hữu của bạn và do đó không được sao chép ở đây, vui lòng:

    • Xác định rõ ràng danh tính của bạn, với dữ liệu liên hệ chi tiết như địa chỉ, số điện thoại hoặc địa chỉ email mà bạn có thể liên hệ.
    • Xác định rõ ràng tác phẩm có bản quyền bị cho là bị vi phạm.
    • Xác định rõ ràng tài liệu được cho là vi phạm và thông tin đầy đủ hợp lý để cho phép chúng tôi xác định tài liệu đó.

    Chúng tôi sẽ tuân thủ các yêu cầu chính đáng bằng cách xóa các nguồn bị ảnh hưởng khỏi bản phát hành tiếp theo của kho ngữ liệu.

  • Phiên bản : 1.0.0

  • Chia tách :