¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

ai2_arc_with_ir

  • Descripción:

Un nuevo conjunto de datos de 7.787 preguntas científicas de opción múltiple genuinas a nivel de escuela primaria, reunidas para fomentar la investigación en respuestas avanzadas a preguntas. El conjunto de datos se divide en un conjunto de desafíos y un conjunto fácil, donde el primero contiene solo preguntas respondidas incorrectamente tanto por un algoritmo basado en la recuperación como por un algoritmo de co-ocurrencia de palabras. También incluimos un corpus de más de 14 millones de oraciones científicas relevantes para la tarea y una implementación de tres modelos de línea de base neuronales para este conjunto de datos. Planteamos ARC como un desafío para la comunidad.

En comparación con el conjunto de datos original, esto se suma frases de contexto obtenidos a través de la recuperación de información de la misma manera como UnifiedQA (ver: https://arxiv.org/abs/2005.00700 ).

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
        'text': Text(shape=(), dtype=tf.string),
    }),
    'id': Text(shape=(), dtype=tf.string),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir / ARC-Challenge-IR (configuración predeterminada)

  • Descripción config: Desafío 2590 Conjunto de preguntas "duras" (aquellos que tanto una recuperación y un método de co-ocurrencia no logran responder correctamente)

  • Conjunto de datos de tamaño: 3.76 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,172
'train' 1,119
'validation' 299

ai2_arc_with_ir / ARC-Easy-IR

  • Descripción config: Easy Set de 5197 preguntas para el Desafío ARC.

  • Conjunto de datos de tamaño: 7.49 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2,376
'train' 2,251
'validation' 570