soma_media

  • Descrição :

Este conjunto de dados de entrevistas de mídia em grande escala contém 463,6K transcrições com resumos abstratos, coletados de transcrições de entrevistas e descrições gerais/de tópicos da NPR e CNN.

Restrinja o uso deste conjunto de dados apenas para fins de pesquisa.

E, por favor, cite nosso artigo: MediaSum: um conjunto de dados de entrevista de mídia em larga escala para resumo de diálogo

Ética

Usamos apenas os dados de transcrições disponíveis publicamente das fontes de mídia e seguimos suas diretrizes de uso exclusivo para pesquisa.

Como a mídia e os convidados podem ter opiniões tendenciosas, as transcrições e resumos provavelmente as conterão. O conteúdo das transcrições e resumos refletem apenas as opiniões da mídia e dos convidados e devem ser vistos com discrição.

  • Página inicial : https://github.com/zcgzcgzcg1/MediaSum

  • Código -fonte: tfds.datasets.media_sum.Builder

  • Versões :

    • 1.0.0 (padrão): versão inicial.
  • Tamanho do download : Unknown size

  • Tamanho do conjunto de dados : 4.11 GiB

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir deve conter os arquivos:

    • news_dialogue.json
    • train_val_test_split.json

Os arquivos podem ser baixados e extraídos da página GitHub do conjunto de dados: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 10.000
'train' 443.596
'val' 10.000
  • Estrutura de recursos :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Documentação do recurso:
Recurso Aula Forma Tipo D Descrição
RecursosDict
data Texto corda
eu ia Texto corda
programa Texto corda
palestrante Sequência (Texto) (Nenhum,) corda
resumo Texto corda
url Texto corda
utt Sequência (Texto) (Nenhum,) corda
  • Citação :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}