reddit_disentanglement

  • 説明

このデータセットには、redditからの最大300万件のメッセージが含まれています。すべてのメッセージにはメタデータのラベルが付いています。タスクは、対応するスレッドでその親メッセージのIDを予測することです。各レコードには、1つのスレッドからのメッセージのリストが含まれています。重複したレコードや壊れたレコードはデータセットから削除されます。

機能は次のとおりです。-id-メッセージid-テキスト-メッセージテキスト-作成者-メッセージ作成者-created_utc-メッセージUTCタイムスタンプ-link_id-コメントが関連する投稿のIDターゲット:-parent_id-現在のスレッドの親メッセージのID

  • ホームページhttps://github.com/henghuiz/MaskedHierarchicalTransformer

  • ソースコードtfds.text.RedditDisentanglement

  • バージョン

    • 2.0.0 (デフォルト):リリースノート。
  • ダウンロードサイズUnknown size

  • データセットのサイズUnknown size

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):
    ダウンロードhttps://github.com/henghuiz/MaskedHierarchicalTransformer、解凍raw_data.zipとあなたのredditのAPIの資格情報を使用して実行generate_dataset.py。次に、train.csv、val.csv、test.csvを出力ディレクトリから手動フォルダに配置します。

  • オートキャッシュされたドキュメント):不明

  • スプリット

スプリット
  • 特長
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}