Oskar

Bibliografia:

unshuffled_deduplicated_af

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_af')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 130640
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_als

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_als')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4518
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_arz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_arz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 79928
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_an

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_an')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2025
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ast

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ast')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5343
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ba

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ba')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 27050
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_am

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_am')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 43102
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_as

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_as')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9212
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_azb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_azb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9985
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_be

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_be')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 307405
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15762
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bxr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bxr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 36
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ceb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ceb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 26145
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_az

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_az')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 626796
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bcl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bcl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 98225
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 37
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1114481
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 702
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ce

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ce')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2984
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 10130
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_diq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_diq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 80
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_et

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_et')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1172041
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3398679
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bpy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bpy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1770
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ca

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ca')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2458067
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ckb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ckb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 68210
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ar

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ar')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9006977
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_av

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_av')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 360
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bar

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bar')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_bh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_bh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 82
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_br

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_br')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 14724
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cbk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cbk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_da

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_da')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4771098
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_dv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_dv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17024
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_eo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_eo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 84752
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8203495
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 20661
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 68
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_cs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_cs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 12308039
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1909387
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6582908
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ie

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ie')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 59448891
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gd

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gd')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3883
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 169834
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3084
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ia

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ia')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 529
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_io

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_io')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 617
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_jbo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_jbo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 617
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_km

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_km')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 108346
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ku

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ku')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 29054
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_la

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_la')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 18808
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lmo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lmo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1374
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 843195
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_min

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_min')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 166
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 212556
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mwl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mwl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 58
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_new

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_new')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2126
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_oc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_oc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6485
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pam

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pam')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ps

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ps')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 67921
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_it

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_it')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 28522082
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ka

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ka')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 372158
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ro

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ro')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5044757
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_scn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_scn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ko

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ko')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3675420
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kw')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 68
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lez

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lez')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1381
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lrc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lrc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 72
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 13343
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 453904
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ms

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ms')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 183443
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_myv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_myv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nds

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nds')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8714
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_nn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_nn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 109118
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_os

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_os')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2559
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pms

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pms')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2859
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_qu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_qu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 411
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7121
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2820821
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 17610
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_so

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_so')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 645747
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ta

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ta')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 833101
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4694
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tyv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tyv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 24
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_uz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15074
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_wa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 677
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_xmf

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xmf')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2418
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11014487
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 56259
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_de

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_de')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 62398034
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11596446
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_el

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_el')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6521169
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_uk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_uk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7782375
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_vi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9897709
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_wuu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_wuu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 64
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_yo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 49
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_als

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_als')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7324
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_arz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_arz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 158113
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_az

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_az')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 912330
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bcl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bcl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1675515
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bs

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bs')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2143
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ce

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ce')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4042
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 20281
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_diq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_diq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eml

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eml')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 84
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_et

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_et')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2093621
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_zh

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_zh')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 41708901
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_an

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_an')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2449
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ast

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ast')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6999
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ba

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ba')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42551
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bg

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bg')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5869686
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bpy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bpy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6046
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ca

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ca')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4390754
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ckb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ckb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 103639
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_es

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_es')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 56326016
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_da

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_da')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7664010
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_dv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 21018
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_eo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_eo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 121168
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_fi

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_fi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5326443
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ga

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ga')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 46493
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_gom

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_gom')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 484
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 321484
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_hy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_hy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 396093
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ilo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ilo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1578
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 13704702
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 33053
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 106
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cześć

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hi')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3264660
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 11197780
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ie

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ie')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 101
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ja

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ja')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 39496439
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_kk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_kk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 338073
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_krc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_krc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1377
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ky

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ky')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 86561
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_li

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_li')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 118
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_lt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_lt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1737411
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mhr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mhr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 2515
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 197878
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 16383
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_mzn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_mzn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 917
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ne

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ne')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 219334
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_no

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_no')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3229940
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 87235
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_pnb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_pnb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3463
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_rm

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_rm')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 34
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8555
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_si

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_si')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 120684
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sq

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sq')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 461598
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_sw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_sw')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 24803
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_th

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_th')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3749826
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_tt

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_tt')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 82738
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_ur

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_ur')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 428674
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_vo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_vo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3317
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_xal

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_xal')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 36
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_deduplicated_yue

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_deduplicated_yue')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_am

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_am')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 83663
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_as

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_as')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 14985
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_azb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_azb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 15446
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_be

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_be')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 586031
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 26795
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_bxr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_bxr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 42
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ceb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ceb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 56248
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_cy

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_cy')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 157698
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_dsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_dsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 65
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_fr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_fr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 96742378
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gd

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gd')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5799
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_gu

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_gu')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 240691
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_hsb

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_hsb')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7959
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ia

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ia')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1040
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_io

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_io')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 694
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_jbo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_jbo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 832
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_km

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_km')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 159363
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ku

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ku')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 46535
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_la

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_la')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 94588
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lmo

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lmo')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1401
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_lv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_lv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1593820
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_min

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_min')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 220
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 326804
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_mwl

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_mwl')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 8
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_nah

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_nah')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 61
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_new

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_new')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 4696
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_oc

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_oc')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 10709
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_pam

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_pam')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ps

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ps')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 98216
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ro

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ro')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 9387265
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_scn

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_scn')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 21
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 5492194
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_sr

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_sr')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1013619
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ta

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ta')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1263280
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tk

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tk')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 6456
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_tyv

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_tyv')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 34
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_uz

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_uz')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 27537
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_wa

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_wa')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 1001
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_xmf

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_xmf')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 3783
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_it

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_it')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 46981781
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ka

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ka')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 563916
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_ko

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS:

ds = tfds.load('huggingface:oscar/unshuffled_original_ko')
  • Opis :
The Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
  • Licencja : Dane te są udostępniane w ramach niniejszego programu licencyjnego. Nie jesteśmy właścicielami żadnego tekstu, z którego pobrano te dane. Licencjonujemy faktyczne opakowanie tych danych w ramach licencji Creative Commons CC0 („żadne prawa zastrzeżone”) http://creativecommons.org/publicdomain/zero/1.0/ W zakresie dozwolonym przez prawo Inria zrzekła się wszelkich praw autorskich i pokrewnych lub prawa pokrewne do OSCAR Ta praca została opublikowana w: Francja.

    Jeżeli uznają Państwo, że nasze dane zawierają materiały będące Państwa własnością i w związku z tym nie powinny być tutaj powielane, prosimy:

    • Wyraźnie się identyfikuj, podając szczegółowe dane kontaktowe, takie jak adres, numer telefonu lub adres e-mail, pod którym można się z Tobą skontaktować.
    • Wyraźnie wskaż dzieło chronione prawem autorskim, które rzekomo zostało naruszone.
    • Jasno określ materiał, który rzekomo narusza prawo, oraz informacje wystarczające, abyśmy mogli zlokalizować materiał.

    Spełnimy uzasadnione żądania, usuwając dotknięte źródła z następnej wersji korpusu.

  • Wersja : 1.0.0

  • Podziały :

Podział Przykłady
'train' 7345075
  • Cechy :
{
    "id": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

unshuffled_original_kw

Użyj następującego polecenia, aby załadować ten zestaw danych do TFDS: