O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

wikihow

  • Descrição:

WikiHow é um novo conjunto de dados em larga escala usando o WikiHow on-line ( http://www.wikihow.com/ base de conhecimento).

Existem dois recursos: - texto: textos de respostas wikihow. - título: linhas em negrito como resumo.

Existem duas versões separadas: - all: consiste na concatenação de todos os parágrafos como os artigos e as linhas em negrito como os resumos de referência. - sep: consiste em cada parágrafo e seu resumo.

Baixar "wikihowAll.csv" e "wikihowSep.csv" de https://github.com/mahnazkoupaee/WikiHow-Dataset e colocá-los na pasta manual do https://www.tensorflow.org/datasets/api_docs/python/tfds/ download / DownloadConfig Train / validação / splits de teste são fornecidos pelos autores. O pré-processamento é aplicado para remover artigos curtos (comprimento do resumo <0,75 comprimento do artigo) e limpar vírgulas extras.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all (configuração padrão)

  • Configuração Descrição: Use a concatenação de todos os parágrafos como os artigos e as linhas arrojadas como os resumos de referência

  • desdobramentos:

Dividir Exemplos
'test' 5.577
'train' 157.252
'validation' 5.599
  • Características:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow / sep

  • A inscrição Config: usar cada parágrafo e seu resumo.

  • desdobramentos:

Dividir Exemplos
'test' 37.800
'train' 1.060.732
'validation' 37.932
  • Características:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})