web_nlg

  • Description:

Les données contiennent des ensembles de 1 à 7 triplets de la forme sujet-prédicat-objet extrait de (DBpedia) [ https://wiki.dbpedia.org/ ] et le texte de langage naturel qui est une verbalisation de ces triples. Les données de test couvrent 15 domaines différents où seulement 10 apparaissent dans les données d'apprentissage. L'ensemble de données suit un format de tableau standardisé.

Diviser Exemples
'test_all' 4 928
'test_unseen' 2 433
'train' 18 102
'validation' 2 268
  • Caractéristiques:
FeaturesDict({
    'input_text': FeaturesDict({
        'context': tf.string,
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • citation:
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}