assin2

  • Mô tả :

bối cảnh hóa

ASSIN 2 là phiên bản thứ hai của Avaliação de Similaridade Semântica e Inferência Textual (Đánh giá tính tương đồng về ngữ nghĩa và tính liên quan đến văn bản) và là một hội thảo được tổ chức cùng với STIL 2019 . Nó tuân theo ấn bản đầu tiên của ASSIN , đề xuất một nhiệm vụ được chia sẻ mới với dữ liệu mới.

Hội thảo đã đánh giá các hệ thống đánh giá hai loại quan hệ giữa hai câu: Tính tương đồng về mặt ngữ nghĩa của văn bản và tính ràng buộc của văn bản.

Tính tương đồng về ngữ nghĩa của văn bản bao gồm việc định lượng mức độ tương đương về ngữ nghĩa giữa các câu, trong khi Nhận dạng liên quan đến văn bản bao gồm việc phân loại xem câu đầu tiên có kéo theo câu thứ hai hay không.

Dữ liệu

Văn bản được sử dụng trong ASSIN 2 bao gồm các câu khá đơn giản. Theo quy trình của Nhiệm vụ 1 SemEval 2014, chúng tôi đã cố gắng loại bỏ khỏi ngữ liệu các thực thể có tên và lời nói gián tiếp, đồng thời cố gắng để tất cả các động từ ở thì hiện tại. Các hướng dẫn chú thích được cung cấp cho người chú thích có sẵn (bằng tiếng Bồ Đào Nha).

Dữ liệu đào tạo và xác nhận lần lượt bao gồm 6.500 và 500 cặp câu bằng tiếng Bồ Đào Nha của Brazil, được chú thích về sự tương đồng về ngữ nghĩa và liên quan. Các giá trị độ tương đồng ngữ nghĩa nằm trong khoảng từ 1 đến 5 và các lớp kéo theo văn bản hoặc là có hoặc không có. Dữ liệu kiểm tra bao gồm khoảng 3.000 cặp câu với cùng một chú thích. Tất cả dữ liệu được chú thích thủ công.

Sự đánh giá

Đánh giá Việc đánh giá các lần gửi tới ASSIN 2 được thực hiện với các chỉ số giống như ASSIN đầu tiên, với F1 về độ chính xác và khả năng thu hồi làm chỉ số chính cho sự kéo theo văn bản và tương quan Pearson cho sự tương đồng về ngữ nghĩa. Các kịch bản đánh giá giống như trong phiên bản trước.

Tái bút: Mô tả được trích xuất từ ​​​​trang chủ chính thức .

Tách ra ví dụ
'test' 2.448
'train' 6.500
'validation' 500
  • Cấu trúc tính năng :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
sự đòi hỏi LớpNhãn int64
giả thuyết Chữ sợi dây
Tôi tenxơ int32
sự giống nhau tenxơ phao32
chữ Chữ sợi dây
  • trích dẫn :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}