Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

strzałka

  • opis:

DART (generowanie rekordu danych do tekstu) zawiera relację z encji RDF z adnotacjami z opisami zdań, które obejmują wszystkie fakty w zestawie potrójnym. DART został skonstruowany przy użyciu istniejących zbiorów danych, takich jak: WikiTableQuestions, WikiSQL, WebNLG i Cleaned E2E. Tabele z WikiTableQuestions i WikiSQL zostały przekształcone w trójki temat-predykat-obiekt, a ich adnotacje tekstowe zostały zebrane głównie z MTurk. Znaczące reprezentacje w E2E zostały również przekształcone w trójki i wykorzystano jego opisy, niektóre, których nie można było przekształcić, zostały usunięte.

Podziały zbiorów danych E2E i WebNLG są zachowywane, a w przypadku WikiTableQuestions i WikiSQL podobieństwo Jaccard jest używane do przechowywania podobnych tabel w tym samym zestawie (pociąg/dev/tes).

Ten zestaw danych jest skonstruowany zgodnie ze standardowym formatem tabeli.

Podział Przykłady
'test' 12 552
'train' 62 659
'validation' 6980
  • Cechy:
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • cytat:
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}