culo2

  • Descripción :

contextualización

ASSIN 2 es la segunda edición de Avaliação de Similaridade Semântica e Inferência Textual (Evaluación de la similitud semántica y la vinculación textual), y fue un taller ubicado junto con STIL 2019 . Sigue la primera edición de ASSIN , proponiendo una nueva tarea compartida con nuevos datos.

El taller evaluó sistemas que evalúan dos tipos de relaciones entre dos oraciones: Similitud Textual Semántica y Vinculación Textual.

La Similitud Semántica Textual consiste en cuantificar el nivel de equivalencia semántica entre oraciones, mientras que el Reconocimiento de Vinculación Textual consiste en clasificar si la primera oración implica la segunda.

Datos

El corpus utilizado en ASSIN 2 se compone de oraciones bastante simples. Siguiendo los procedimientos de la Tarea 1 de SemEval 2014, intentamos eliminar del corpus las entidades nombradas y el estilo indirecto, y tratamos de tener todos los verbos en tiempo presente. Las instrucciones de anotación dadas a los anotadores están disponibles (en portugués).

Los datos de entrenamiento y validación se componen, respectivamente, de 6.500 y 500 pares de oraciones en portugués brasileño, anotadas por vinculación y similitud semántica. Los valores de similitud semántica oscilan entre 1 y 5, y las clases de vinculación de texto son vinculación o ninguna. Los datos de la prueba se componen de aproximadamente 3000 pares de oraciones con la misma anotación. Todos los datos fueron anotados manualmente.

Evaluación

Evaluación La evaluación de los envíos al ASSIN 2 se realizó con las mismas métricas que el primer ASSIN, con la F1 de precisión y recuerdo como la métrica principal para la vinculación del texto y la correlación de Pearson para la similitud semántica. Los guiones de evaluación son los mismos que en la última edición.

PD.: La descripción se extrae de la página de inicio oficial .

Separar Ejemplos
'test' 2,448
'train' 6,500
'validation' 500
  • Estructura de características :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=tf.string),
    'id': tf.int32,
    'similarity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
vinculación Etiqueta de clase tf.int64
hipótesis Texto tf.cadena
identificación Tensor tf.int32
semejanza Tensor tf.float32
texto Texto tf.cadena
  • Cita :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c}}alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i}}sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c}}alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}