Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

wikihow

  • opis:

WikiHow jest nowy zestaw danych na dużą skalę przy użyciu WikiHow Internecie ( http://www.wikihow.com/ ) bazy wiedzy.

Istnieją dwie funkcje: - tekst: wikihow odpowiada na teksty. - nagłówek: pogrubione linie jako podsumowanie.

Istnieją dwie oddzielne wersje: - all: składająca się z połączenia wszystkich paragrafów jako artykułów i pogrubionych linii jako streszczeń odnośników. - wrz: składający się z każdego akapitu i jego streszczenia.

Pobierz „wikihowAll.csv” i „wikihowSep.csv” od https://github.com/mahnazkoupaee/WikiHow-Dataset i umieścić je w folderze Manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download / DownloadConfig Pociąg / walidacja / rozłamy testowe są dostarczane przez autorów. Przetwarzanie wstępne jest stosowane w celu usunięcia krótkich artykułów (abstrakcyjna długość < 0,75 długości artykułu) i usunięcia dodatkowych przecinków.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/wszystko (domyślna konfiguracja)

  • Opis konfiguracji: Za pomocą połączeniem wszystkich punktach także artykuły i pogrubioną linią odniesienia jak zestawień

  • dzieli:

Podział Przykłady
'test' 5577
'train' 157 252
'validation' 5 599
  • Cechy:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow/wrzesień

  • Opis config: wykorzystać każdy akapit i jego podsumowanie.

  • dzieli:

Podział Przykłady
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Cechy:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})