Referências:
unshuffled_deduplicated_af
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 130640 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_als
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4518 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_arz
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 79928 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_an
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2025 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ast
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5343 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ba
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 27050 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_am
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 43102 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_as
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9212 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_azb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9985 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_be
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 307405 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 15762 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bxr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 36 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ceb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 26145 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_az
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 626796 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bcl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 98225 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_dsb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 37 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1114481 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bs
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 702 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ce
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2984 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_cv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 10130 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_diq
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_eml
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 80 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_et
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1172041 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bg
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3398679 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_bpy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1770 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ca
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2458067 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ckb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material de sua propriedade e, portanto, não devem ser reproduzidos aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 68210 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ar
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material alegadamente infrator e as informações razoavelmente suficientes para nos permitir localizar o material.
Atenderemos às solicitações legítimas removendo as fontes afetadas da próxima versão do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 9006977 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_av
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento. Não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos o empacotamento real desses dados sob a licença Creative Commons CC0 ("sem direitos reservados") http://creativecommons.org/publicdomain/zero/1.0/ Na medida do possível sob a lei, a Inria renunciou a todos os direitos autorais e relacionados ou direitos conexos ao OSCAR Este trabalho foi publicado em: França.
Se você considerar que nossos dados contêm material que é de sua propriedade e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique-se claramente, com dados de contacto detalhados, como morada, número de telefone ou endereço de e-mail através dos quais possa ser contactado.
- Identifique claramente o trabalho protegido por direitos autorais alegadamente violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 360 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_bar
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_bh
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 82 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_br
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 14724 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_cbk
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_da
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 4771098 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_dv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17024 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_eo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 84752 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_fa
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 8203495 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_fy
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 20661 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedUplicated_gn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 68 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_deduplicated_cs
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 12308039 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_hi
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1909387 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_hu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6582908 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_ie
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 11 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_fr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 59448891 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_gd
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3883 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_gu
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 169834 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_hsb
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3084 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_ia
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 529 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_io
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 617 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_deduplicated_jbo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 617 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_km
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 108346 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_ku
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 29054 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_la
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 18808 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_lmo
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1374 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_lv
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 843195 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedUplicated_min
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 166 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_mr
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 212556 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_mwl
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Se você considerar que nossos dados contêm material que pertence a você e, portanto, não deve ser reproduzido aqui, por favor:
- Identifique -se claramente, com dados de contato detalhados, como endereço, número de telefone ou endereço de e -mail no qual você pode ser contatado.
- Identifique claramente o trabalho protegido por direitos autorais que afirmou ser violado.
- Identifique claramente o material que se afirma estar violando e informações razoavelmente suficientes para nos permitir localizar o material.
Vamos cumprir solicitações legítimas, removendo as fontes afetadas da próxima liberação do corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 7 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
Nãoffled_dedupliced_nah
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
Licença : Esses dados são divulgados sob este esquema de licenciamento, não possuímos nenhum texto do qual esses dados foram extraídos. Licenciamos a embalagem real desses dados sob a Licença Creative Commons CC0 ("sem direitos reservados") http://creracivecommons.org/publicdomain/zero/1.0/ Na medida em que possível por lei, a INRIA renunciou a todos os direitos autorais e relacionados ou relacionados ou relacionados ou relacionados Direitos vizinhos de Oscar Este trabalho é publicado em: França.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 58 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_new
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 2126 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_oc
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 6485 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_pam
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ps
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 67921 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_it
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 28522082 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ka
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 372158 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ro
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 5044757 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_scn
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 17 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_ko
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3675420 |
- Características :
{
"id": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}
unshuffled_deduplicated_kw
Use o seguinte comando para carregar este conjunto de dados no TFDS:
ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
- Descrição :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
License : These data are released under this licensing scheme We do not own any of the text from which these data has been extracted. We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/ To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
- Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
- Clearly identify the copyrighted work claimed to be infringed.
- Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Versão : 1.0.0
Divisões :
Dividir | Exemplos |
---|---|
'train' | 68 |
- Características :
{
"id": {
"