Óscar

Referências:

unshuffled_deduplicated_af

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 130640
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_als

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 4518
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_arz

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 79928
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_an

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 2025
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ast

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 5343
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ba

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 27050
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_am

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 43102
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_as

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 9212
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_azb

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 9985
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_be

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 307405
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bo

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 15762
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bxr

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 36
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ceb

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 26145
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_az

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 626796
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bcl

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cy

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 98225
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dsb

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 37
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bn

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1114481
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bs

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 702
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ce

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 2984
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cv

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 10130
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_diq

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eml

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 80
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_et

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1172041
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bg

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 3398679
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bpy

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1770
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ca

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 2458067
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ckb

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 68210
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ar

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.

    Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 9006977
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_av

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.

    Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
    • Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 360
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_bar

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 4
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_bh

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 82
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_br

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 14724
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_cbk

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_da

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 4771098
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_dv

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 17024
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_eo

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 84752
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_fa

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 8203495
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_fy

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 20661
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedUplicated_gn

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 68
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_deduplicated_cs

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 12308039
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_hi

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1909387
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_hu

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 6582908
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_ie

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 11
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_fr

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 59448891
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_gd

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 3883
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_gu

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 169834
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_hsb

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 3084
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_ia

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 529
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_io

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 617
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_deduplicated_jbo

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 617
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_km

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 108346
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_ku

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 29054
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_la

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 18808
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_lmo

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1374
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_lv

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 843195
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedUplicated_min

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 166
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_mr

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 212556
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_mwl

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:

    • Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
    • Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
    • Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.

    Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 7
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Nãoffled_dedupliced_nah

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 58
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_new

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 2126
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_oc

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 6485
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pam

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 1
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ps

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 67921
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_it

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 28522082
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ka

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 372158
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ro

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 5044757
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_scn

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 17
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ko

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 3675420
  • Características :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kw

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.

    Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:

    • Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
    • Clearly identify the copyrighted work claimed to be infringed.
    • Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.

    We will comply to legitimate requests by removing the affected sources from the next release of the corpus.

  • Versão : 1.0.0

  • Divisões :

Dividir Exemplos
'train' 68
  • Características :
{
    "id": {
        "