Оскар

Использованная литература:

unshuffled_dedupliced_af

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 130640
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_als

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4518
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_arz

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 79928
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_an

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2025 год
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ast

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5343
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ba

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 27050
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_am

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 43102
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_as

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9212
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_azb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9985
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_be

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 307405
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 15762
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bxr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 36
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ceb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 26145
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_az

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 626796
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bcl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_cy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 98225
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_dsb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 37
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1114481
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bs

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 702
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ce

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2984
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_cv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 10130
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_diq

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_eml

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 80
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_et

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1172041
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bg

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3398679
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bpy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1770 г.
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ca

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2458067
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ckb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 68210
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ar

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9006977
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_av

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 360
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bar

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_bh

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 82
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_br

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 14724
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_cbk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_da

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4771098
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_dv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 17024
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_eo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 84752
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_fa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 8203495
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_fy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 20661
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_gn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 68
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_cs

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 12308039
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_hi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1909387
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_hu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6582908
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ie

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 11
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_fr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 59448891
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_gd

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3883
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_gu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 169834
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_hsb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3084
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ia

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 529
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_io

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 617
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_jbo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 617
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_km

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 108346
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ku

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 29054
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_la

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 18808
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_lmo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1374
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_lv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 843195
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_min

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 166
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 212556
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mwl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_nah

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 58
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_new

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2126
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_oc

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6485
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_pam

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ps

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 67921
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_it

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 28522082
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ka

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 372158
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ro

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5044757
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_scn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 17
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ko

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3675420
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_kw

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 68
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_lez

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1381
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_lrc

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 72
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mg

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 13343
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ml

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 453904
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ms

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 183443
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_myv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_nds

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 8714
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_nn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 109118
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_os

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2559
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_pms

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2859
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_qu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 411
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7121
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_sk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2820821
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sh

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 17610
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_so

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 42
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 645747
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ta

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 833101
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_tk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4694
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_tyv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 24
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_uz

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 15074
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_wa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 677
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_xmf

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2418
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 11014487
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_tg

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 56259
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_de

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 62398034
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_tr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 11596446
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_el

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6521169
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_uk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7782375
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_vi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9897709
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_wuu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 64
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_yo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 49
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_als

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_als')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7324
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_arz

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 158113
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_az

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_az')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 912330
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bcl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1675515
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bs

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2143
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ce

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4042
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 20281
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_diq

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eml

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 84
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_et

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_et')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2093621
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_zh

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 41708901
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_an

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_an')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2449
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ast

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6999
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ba

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 42551
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bg

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5869686
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bpy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6046
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ca

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4390754
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ckb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 103639
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_es

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 56326016
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_da

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_da')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7664010
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_dv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 21018
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 121168
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_fi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5326443
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ga

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 46493
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_gom

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 484
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_hr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 321484
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_hy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 396093
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ilo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1578 г.
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 13704702
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 33053
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 106
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3264660
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 11197780
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ie

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 101
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ja

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 39496439
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_kk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 338073
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_krc

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1377
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ky

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 86561
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_li

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 118
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_lt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1737411
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mhr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2515
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 197878
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 16383
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_mzn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 917
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ne

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 219334
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_no

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3229940
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_pa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 87235
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_pnb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3463
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_rm

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 34
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_sah

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 8555
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_si

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 120684
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sq

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 461598
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sw

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 24803
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_th

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3749826
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_tt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 82738
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_ur

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 428674
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_vo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3317
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_xal

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 36
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_yue

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_am

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_am')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 83663
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_as

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_as')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 14985
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_azb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 15446
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_be

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_be')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 586031
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 26795
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bxr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 42
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ceb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 56248
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 157698
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_dsb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 65
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 96742378
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gd

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5799
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 240691
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hsb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7959
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ia

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1040
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_io

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_io')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 694
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_jbo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 832
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_km

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_km')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 159363
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ku

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 46535
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_la

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_la')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 94588
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lmo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1401
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1593820
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_min

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_min')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 220
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 326804
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mwl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mwl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 8
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nah

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nah')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 61
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_new

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_new')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4696
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_oc

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_oc')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 10709
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pam

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pam')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ps

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ps')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 98216
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ro

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ro')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9387265
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_scn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_scn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 21
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5492194
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1013619
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ta

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ta')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1263280
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6456
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tyv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tyv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 34
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_uz

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uz')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 27537
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_wa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1001
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_xmf

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xmf')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3783
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_it

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_it')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 46981781
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ka

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ka')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 563916
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ko

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ko')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7345075
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kw

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kw')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 203
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lez

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lez')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1485
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lrc

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lrc')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 88
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mg

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mg')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 17957
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ml

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ml')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 603937
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ms

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ms')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 534016
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_myv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_myv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nds

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nds')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 18174
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 185884
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_os

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_os')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5213
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pms

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pms')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3225
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_qu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_qu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 452
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 14291
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sh

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sh')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 36700
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_so

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_so')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 156
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 17395625
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tg

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tg')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 89002
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 18535253
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_uk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 12973467
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_vi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 14898250
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_wuu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wuu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 214
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_yo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 214
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_zh

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_zh')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 60137667
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_en

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_en')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 304230423
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_eu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 256513
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_frr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_frr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_gl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 284320
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_he

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_he')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2375030
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ht

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ht')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_id

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_id')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9948521
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_is

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_is')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 389515
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_jv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1163
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_kn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 251064
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_kv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 924
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_lb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 21735
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_lo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 32652
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_mai

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mai')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 25
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 299457
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_mrj

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mrj')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 669
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_my

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_my')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 136639
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_nap

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nap')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 55
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_nl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 20812149
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_or

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_or')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 44230
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_pl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 20682611
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_pt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 26920397
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ru

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ru')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 115954598
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sd

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sd')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 33925
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_sl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 886223
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_su

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_su')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 511
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_te

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_te')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 312644
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_tl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 294132
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_ug

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ug')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 15503
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_dedupliced_vec

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vec')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 64
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_war

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_war')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9161
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduulated_yi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 32919
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_af

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_af')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 201117
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ar

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ar')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 16365602
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_av

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_av')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 456
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bar

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bar')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bh

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bh')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 336
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_br

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_br')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 37085
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cbk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cbk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cs

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cs')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 21001388
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_de

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_de')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 104913504
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_el

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_el')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 10425596
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_es

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_es')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 88199221
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 8557453
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ga

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ga')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 83223
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gom

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gom')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 640
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 582219
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hy

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hy')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 659430
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ilo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ilo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2638
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ja

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ja')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 62721527
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 524591
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_krc

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_krc')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1581 г.
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ky

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ky')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 146993
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_li

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_li')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 137
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 2977757
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mhr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mhr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3212
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 395605
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 26598
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mzn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mzn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1055
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ne

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ne')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 299938
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_no

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_no')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 5546211
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pa

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pa')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 127467
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pnb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pnb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 4599
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_rm

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_rm')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 41
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sah

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sah')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 22301
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_si

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_si')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 203082
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sq

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sq')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 672077
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sw

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sw')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 41986
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_th

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_th')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 6064129
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 135923
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ur

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ur')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 638596
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_vo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3366
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_xal

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xal')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 39
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_yue

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yue')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 11
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_en

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_en')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 455994980
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eu

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eu')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 506883
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_frr

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_frr')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 7
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 544388
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_he

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_he')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 3808397
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ht

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ht')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 13
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_id

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_id')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 16236463
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_is

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_is')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 625673
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_jv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1445
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kn

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kn')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 350363
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kv

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_kv')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1549 г.
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lb

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lb')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 34807
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lo

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lo')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 52910
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mai

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mai')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 123
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mk

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mk')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 437871
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mrj

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mrj')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 757
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_my

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_my')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 232329
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nap

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nap')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 73
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 34682142
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_or

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_or')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 59463
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 35440972
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pt

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pt')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 42114520
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ru

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ru')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 161836003
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sd

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sd')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 44280
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 1746604
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_su

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_su')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 805
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_te

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_te')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 475703
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tl

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tl')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 458206
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ug

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ug')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 22255
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_vec

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_vec')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 73
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_war

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_war')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 9760
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_yi

Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_yi')
  • Описание :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Лицензия : Эти данные публикуются по этой схеме лицензирования. Мы не владеем текстом, из которого были извлечены эти данные. Мы лицензируем фактическую упаковку этих данных по лицензии Creative Commons CC0 («права не защищены») http://creativecommons.org/publicdomain/zero/1.0/ Насколько это возможно по закону, Inria отказалась от всех авторских прав и связанных с ними или смежные права с ОСКАР. Эта работа опубликована в: Франция.

    Если вы считаете, что наши данные содержат материал, который принадлежит вам и поэтому не должен воспроизводиться здесь, пожалуйста:

    • Четко идентифицируйте себя, указав подробные контактные данные, такие как адрес, номер телефона или адрес электронной почты, по которым с вами можно связаться.
    • Четко укажите произведение, защищенное авторским правом, которое, как утверждается, было нарушено.
    • Четко укажите материал, который, как утверждается, нарушает авторские права, и информацию, достаточную для того, чтобы мы могли обнаружить этот материал.

    Мы выполним законные запросы, удалив затронутые источники из следующей версии корпуса.

  • Версия : 1.0.0

  • Расколы :

Расколоть Примеры
'train' 59364
  • Функции :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}