- תיאור :
מערך הנתונים של IRC Disentanglement מכיל למעלה מ-77,563 הודעות מערוץ ה-IRC של אובונטו.
התכונות כוללות מזהה הודעה, טקסט הודעה וחותמת זמן. יעד הוא רשימה של הודעות שההודעה הנוכחית עונה להן. כל רשומה מכילה רשימה של הודעות מיום אחד של צ'אט IRC.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://jkk.name/irc-disentanglement
קוד מקור :
tfds.datasets.irc_disentanglement.Builder
גרסאות :
-
2.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
113.53 MiB
גודל מערך נתונים :
26.59 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- מבנה תכונה :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
יְוֹם | סדר פעולות | |||
יום/מזהה | טֶקסט | חוּט | ||
יום/הורים | רצף (טקסט) | (אף אחד,) | חוּט | |
יום/טקסט | טֶקסט | חוּט | ||
יום/חותמת זמן | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}