reddit_disentanglement

  • 説明:

このデータセットには、reddit からの約 3M のメッセージが含まれています。すべてのメッセージはメタデータでラベル付けされています。タスクは、対応するスレッドで親メッセージの ID を予測することです。各レコードには、1 つのスレッドからのメッセージのリストが含まれています。重複したレコードや壊れたレコードはデータセットから削除されます。

機能は次のとおりです。

  • id - メッセージ ID
  • テキスト - メッセージテキスト
  • 作者 - メッセージ作者
  • created_utc - メッセージの UTC タイムスタンプ
  • link_id - コメントが関連する投稿の ID

目標:

  • parent_id - 現在のスレッドの親メッセージの ID

  • ホームページ: https://github.com/henghuiz/MaskedHierarchicalTransformer

  • ソースコード: tfds.datasets.reddit_disentanglement.Builder

  • バージョン:

    • 2.0.0 (デフォルト): リリース ノートはありません。
  • ダウンロードサイズ: サイズUnknown size

  • データセットのサイズ: サイズUnknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    https://github.com/henghuiz/MaskedHierarchicalTransformer をダウンロードし、raw_data.zip を解凍し、reddit API 資格情報を使用して generate_dataset.py を実行します。次に、出力ディレクトリから train.csv、val.csv、test.csv を manual フォルダーに配置します。

  • 自動キャッシュ(ドキュメント): 不明

  • スプリット:

スプリット
  • 機能構造:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
順序
スレッド/著者文章ストリング
スレッド/created_utc文章ストリング
スレッド/ID文章ストリング
スレッド/link_id文章ストリング
スレッド/parent_id文章ストリング
スレッド/テキスト文章ストリング
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}