- Deskripsi :
Dataset IRC Disentanglement berisi lebih dari 77.563 pesan dari saluran IRC Ubuntu.
Fitur termasuk id pesan, teks pesan dan cap waktu. Target adalah daftar pesan yang dibalas oleh pesan saat ini. Setiap record berisi daftar pesan dari satu hari chat IRC.
Situs web : https://jkk.name/irc-disentanglement
Kode sumber :
tfds.text.IrcDisentanglement
Versi :
-
2.0.0
(default): Tidak ada catatan rilis.
-
Ukuran download :
113.53 MiB
Ukuran
26.59 MiB
data :26.59 MiB
Cache otomatis ( dokumentasi ): Ya
Split :
Membagi | Contoh |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Fitur :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=tf.string),
'parents': Sequence(Text(shape=(), dtype=tf.string)),
'text': Text(shape=(), dtype=tf.string),
'timestamp': Text(shape=(), dtype=tf.string),
}),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Kutipan :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):