reddit_disentanglement

Açıklama :

Bu veri kümesi, reddit'ten ~3 milyon mesaj içeriyor. Her mesaj meta verilerle etiketlenir. Görev, karşılık gelen dizideki üst mesajının kimliğini tahmin etmektir. Her kayıt, bir diziden gelen mesajların bir listesini içerir. Yinelenen ve bozuk kayıtlar veri kümesinden kaldırılır.

Özellikler:

kimlik - mesaj kimliği
metin - mesaj metni
yazar - mesaj yazarı
creator_utc - mesaj UTC zaman damgası
link_id - yorumun ilgili olduğu gönderinin kimliği

Hedef:

parent_id - geçerli ileti dizisindeki ana iletinin kimliği
Ana Sayfa : https://github.com/henghuiz/MaskedHierarchicalTransformer
Kaynak kodu : tfds.datasets.reddit_disentanglement.Builder
sürümler :
- 2.0.0 (varsayılan): Sürüm notu yok.
İndirme boyutu : Unknown size
Veri kümesi boyutu : Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
https://github.com/henghuiz/MaskedHierarchicalTransformer'ı indirin, raw_data.zip dosyasını açın ve reddit api kimlik bilgilerinizle create_dataset.py dosyasını çalıştırın. Ardından, çıktı dizininden train.csv, val.csv ve test.csv'yi manual klasörüne koyun.
Otomatik önbelleğe alınmış ( belgeler ): Bilinmiyor
bölmeler :

Bölmek	örnekler

Özellik yapısı :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
iplik	Sıra
konu/yazar	Metin	sicim
iş parçacığı/created_utc	Metin	sicim
konu/kimlik	Metin	sicim
iş parçacığı/bağlantı_kimliği	Metin	sicim
iş parçacığı/ebeveyn_kimliği	Metin	sicim
konu/metin	Metin	sicim

Denetlenen anahtarlar (Bkz as_supervised doc ): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ): Eksik.
Alıntı :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

reddit_disentanglement