irc_disentanglement

Deskripsi :

Dataset IRC Disentanglement berisi lebih dari 77.563 pesan dari saluran IRC Ubuntu.

Fitur termasuk id pesan, teks pesan, dan stempel waktu. Target adalah daftar pesan yang dibalas oleh pesan saat ini. Setiap catatan berisi daftar pesan dari satu hari obrolan IRC.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://jkk.name/irc-disentanglement
Kode sumber : tfds.datasets.irc_disentanglement.Builder
Versi :
- 2.0.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : 113.53 MiB
Ukuran dataset : 26.59 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	10
`'train'`	153
`'validation'`	10

Struktur fitur :

FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
hari	Urutan
hari/hari	Teks		rangkaian
hari/orang tua	Urutan (Teks)	(Tidak ada,)	rangkaian
hari/teks	Teks		rangkaian
hari/stempel waktu	Teks		rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}

irc_disentanglement Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

irc_disentanglement