- Descripción :
Este es un conjunto de datos para clasificar las intenciones de citación en trabajos académicos. La etiqueta de intención de cita principal para cada objeto Json se especifica con la clave de etiqueta, mientras que el contexto de la cita se especifica con una clave de contexto. Ejemplo: { 'string': 'En los babuinos chacma, las relaciones macho-bebé se pueden vincular tanto con la formación de amistades como con el éxito de la paternidad [30,31]'. 'sectionName': 'Introduction', 'label': 'background', 'citingPaperId': '7a6b2d4b405439', 'citedPaperId': '9d1abadc55b5e0', ... } Puede obtener la información completa sobre el artículo utilizando los identificadores de artículo proporcionados con la API Semantic Scholar ( https://api.semanticscholar.org/ ). Las etiquetas son: Método, Fondo, Resultado
Página de inicio: https://github.com/allenai/scicite
Código fuente :
tfds.text.Scicite
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
22.12 MiB
Tamaño del conjunto de datos :
Unknown size
Auto-caché ( documentación ): Desconocido
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,859 |
'train' | 8,194 |
'validation' | 916 |
- Estructura de características :
FeaturesDict({
'citeEnd': tf.int64,
'citeStart': tf.int64,
'citedPaperId': Text(shape=(), dtype=tf.string),
'citingPaperId': Text(shape=(), dtype=tf.string),
'excerpt_index': tf.int32,
'id': Text(shape=(), dtype=tf.string),
'isKeyCitation': tf.bool,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'label2': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
'label2_confidence': tf.float32,
'label_confidence': tf.float32,
'sectionName': Text(shape=(), dtype=tf.string),
'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=7),
'string': Text(shape=(), dtype=tf.string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
citeEnd | Tensor | tf.int64 | ||
citarIniciar | Tensor | tf.int64 | ||
ID de papel citado | Texto | tf.cadena | ||
citandoPaperId | Texto | tf.cadena | ||
extracto_índice | Tensor | tf.int32 | ||
identificación | Texto | tf.cadena | ||
esKeyCitation | Tensor | tf.bool | ||
etiqueta | Etiqueta de clase | tf.int64 | ||
etiqueta2 | Etiqueta de clase | tf.int64 | ||
etiqueta2_confianza | Tensor | tf.float32 | ||
etiqueta_confianza | Tensor | tf.float32 | ||
Nombre de la sección | Texto | tf.cadena | ||
fuente | Etiqueta de clase | tf.int64 | ||
cuerda | Texto | tf.cadena |
Claves supervisadas (ver
as_supervised
doc ):('string', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@InProceedings{Cohan2019Structural,
author={Arman Cohan and Waleed Ammar and Madeleine Van Zuylen and Field Cady},
title={Structural Scaffolds for Citation Intent Classification in Scientific Publications},
booktitle="NAACL",
year="2019"
}