¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

doc_nli

  • Descripción:

DocNLI es un conjunto de datos a gran escala para la inferencia de lenguaje natural (NLI) a nivel de documento. DocNLI se transforma a partir de una amplia gama de problemas de PNL y cubre varios géneros de texto. Las premisas siempre se mantienen en la granularidad del documento, mientras que las hipótesis varían en longitud desde oraciones simples hasta pasajes con cientos de palabras. A diferencia de algunos conjuntos de datos NLI de nivel de oración existentes, DocNLI tiene artefactos bastante limitados.

Separar Ejemplos de
'test' 267,086
'train' 942,314
'validation' 234,258
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}