göt2

  • Açıklama :

bağlamsallaştırma

ASSIN 2, Avaliação de Similaridade Semântica e Inferência Textual'ın (Evaluating Semantic Benzerity and Textual Entailment) ikinci baskısıdır ve STIL 2019 ile aynı yerde bulunan bir atölye çalışmasıdır. Yeni verilerle yeni bir paylaşılan görev öneren ASSIN'in ilk baskısını takip ediyor.

Atölye, iki cümle arasındaki iki tür ilişkiyi değerlendiren sistemleri değerlendirdi: Anlamsal Metinsel Benzerlik ve Metinsel Gereklilik.

Anlamsal Metinsel Benzerlik, cümleler arasındaki anlamsal eşdeğerlik düzeyini ölçmekten oluşurken, Metinsel Gereklilik Tanıma, ilk cümlenin ikinciyi içerip içermediğini sınıflandırmaktan oluşur.

Veri

ASSIN 2'de kullanılan bütünce oldukça basit cümlelerden oluşmaktadır. SemEval 2014 Task 1 prosedürünü takip ederek varlık ve dolaylı anlatım adlı tümceden tüm fiilleri şimdiki zamanda almaya çalıştık. Anlatıcılara verilen açıklama talimatları mevcuttur (Portekizce).

Eğitim ve doğrulama verileri, gereklilik ve anlamsal benzerlik için açıklamalı olarak Brezilya Portekizcesinde sırasıyla 6.500 ve 500 cümle çiftinden oluşur. Anlamsal benzerlik değerleri 1 ile 5 arasında değişir ve metin gereklilik sınıfları ya gerekliliktir ya da hiçbiridir. Test verileri, aynı açıklamaya sahip yaklaşık 3.000 cümle çiftinden oluşur. Tüm veriler manuel olarak not edildi.

Değerlendirme

Değerlendirme ASSIN 2'ye yapılan gönderimlerin değerlendirilmesi, ilk ASSIN ile aynı metriklerle yapıldı ve metin gerekliliği için ana metrik olarak kesinlik ve hatırlama F1'i ve anlamsal benzerlik için Pearson korelasyonu vardı. Değerlendirme komut dosyaları , son baskıdakiyle aynıdır.

Not.: Açıklama resmi ana sayfadan alınmıştır.

Bölmek Örnekler
'test' 2.448
'train' 6.500
'validation' 500
  • Özellik yapısı :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=tf.string),
    'id': tf.int32,
    'similarity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
zorunluluk sınıf etiketi tf.int64
hipotez Metin tf.string
İD tensör tf.int32
benzerlik tensör tf.float32
Metin Metin tf.string
  • alıntı :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}