Ajuda a proteger a Grande Barreira de Corais com TensorFlow em Kaggle Junte Desafio

redação

  • Descrição:

NEWSROOM é um grande conjunto de dados para treinamento e avaliação de sistemas de sumarização. Ele contém 1,3 milhão de artigos e resumos escritos por autores e editores nas redações de 38 publicações importantes.

Os recursos do conjunto de dados incluem: - texto: texto de entrada de notícias. - resumo: Resumo das notícias. E recursos adicionais: - título: título da notícia. - url: url da notícia. - data: data do artigo. - densidade: densidade extrativa. - cobertura: cobertura extrativista. - compressão: taxa de compressão. - densidade_bin: baixo, médio, alto. - cover_bin: extrativo, abstrativo. - compression_bin: baixo, médio, alto.

Este conjunto de dados pode ser baixado mediante solicitação. Descompacte todo o conteúdo "train.jsonl, dev.josnl, test.jsonl" para a pasta tfds.

  • Homepage: https://summari.es

  • O código-fonte: tfds.summarization.Newsroom

  • versões:

    • 1.0.0 (padrão): Não há notas de lançamento.
  • Tamanho do download: Unknown size

  • Tamanho do conjunto de dados: Unknown size

  • Instruções baixar o manual: Este conjunto de dados requer que você baixe os dados de origem manualmente para download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Você deve baixar o conjunto de dados do https://summari.es/download/ A página requer registo. Após o download, coloque os arquivos dev.jsonl, test.jsonl e train.jsonl no manual_dir.

  • Cache-Auto ( documentação ): Desconhecido

  • desdobramentos:

Dividir Exemplos
'test' 108.862
'train' 995.041
'validation' 108.837
  • Características:
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}