cfq

  • Description:

L'ensemble de données CFQ (et ses divisions) pour mesurer la généralisation compositionnelle.

Voir https://arxiv.org/abs/1912.09713.pdf pour le fond.

Une note sur l'ensemble de validation: Comme il a la même distribution que l'ensemble de test et nous nous intéressons à la mesure de la généralisation de la composition d'un modèle par rapport à une distribution de test inconnu nous suggérons que tout réglage doit être effectué sur un sous - ensemble du train ensemble seulement (voir la section 5.1 du document).

Exemple d'utilisation :

data = tfds.load('cfq/mcd1')
FeaturesDict({
    'query': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
@inproceedings{Keysers2020,
  title={Measuring Compositional Generalization: A Comprehensive Method on
         Realistic Data},
  author={Daniel Keysers and Nathanael Sch"{a}rli and Nathan Scales and
          Hylke Buisman and Daniel Furrer and Sergii Kashubin and
          Nikola Momchev and Danila Sinopalnikov and Lukasz Stafiniak and
          Tibor Tihon and Dmitry Tsarkov and Xiao Wang and Marc van Zee and
          Olivier Bousquet},
  booktitle={ICLR},
  year={2020},
  url={https://arxiv.org/abs/1912.09713.pdf},
}

cfq/mcd1 (configuration par défaut)

  • Dataset Taille: 49.75 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/mcd2

  • Dataset Taille: 51.39 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/mcd3

  • Dataset Taille: 50.22 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/question_complexité_split

  • Dataset Taille: 52.81 MiB

  • scissions:

Diviser Exemples
'test' 10 340
'train' 98 999
'validation' 10 339

cfq/question_pattern_split

  • Dataset Taille: 52.81 MiB

  • scissions:

Diviser Exemples
'test' 11 909
'train' 95 654
'validation' 12 115

cfq/query_complexity_split

  • Dataset Taille: 52.81 MiB

  • scissions:

Diviser Exemples
'test' 9 512
'train' 100 654
'validation' 9 512

cfq/query_pattern_split

  • Dataset Taille: 52.81 MiB

  • scissions:

Diviser Exemples
'test' 12 589
'train' 94 600
'validation' 12 489

cfq/random_split

  • Dataset Taille: 52.81 MiB

  • scissions:

Diviser Exemples
'test' 11 967
'train' 95 744
'validation' 11 967

cfq/cd0_r1

  • Dataset Taille: 49.72 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r2

  • Dataset Taille: 49.45 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r3

  • Dataset Taille: 49.76 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r4

  • Dataset Taille: 50.04 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r5

  • Dataset Taille: 49.36 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r6

  • Dataset Taille: 49.36 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r7

  • Dataset Taille: 49.93 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r8

  • Dataset Taille: 48.58 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0_r9

  • Dataset Taille: 49.23 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r1

  • Dataset Taille: 51.54 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r2

  • Dataset Taille: 48.18 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r3

  • Dataset Taille: 49.23 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r4

  • Dataset Taille: 49.76 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r5

  • Dataset Taille: 49.10 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r6

  • Dataset Taille: 49.10 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r7

  • Dataset Taille: 48.02 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r8

  • Dataset Taille: 48.13 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.1_r9

  • Dataset Taille: 48.44 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r1

  • Dataset Taille: 50.90 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r2

  • Dataset Taille: 49.12 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r3

  • Dataset Taille: 50.68 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r4

  • Dataset Taille: 52.61 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r5

  • Dataset Taille: 50.63 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r6

  • Dataset Taille: 50.63 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r7

  • Dataset Taille: 52.39 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r8

  • Dataset Taille: 50.53 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.2_r9

  • Dataset Taille: 50.64 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r1

  • Dataset Taille: 52.08 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r2

  • Dataset Taille: 52.11 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r3

  • Dataset Taille: 51.25 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r4

  • Dataset Taille: 49.94 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r5

  • Dataset Taille: 49.71 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r6

  • Dataset Taille: 49.71 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r7

  • Dataset Taille: 50.86 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r8

  • Dataset Taille: 49.43 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.3_r9

  • Dataset Taille: 50.32 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r1

  • Dataset Taille: 48.52 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r2

  • Dataset Taille: 47.40 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r3

  • Dataset Taille: 49.18 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r4

  • Dataset Taille: 47.86 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r5

  • Dataset Taille: 49.01 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r6

  • Dataset Taille: 49.01 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r7

  • Dataset Taille: 51.70 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r8

  • Dataset Taille: 50.94 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.4_r9

  • Dataset Taille: 51.98 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r1

  • Dataset Taille: 51.00 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r2

  • Dataset Taille: 49.91 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r3

  • Dataset Taille: 51.26 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r4

  • Dataset Taille: 51.27 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r5

  • Dataset Taille: 51.87 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r6

  • Dataset Taille: 51.87 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r7

  • Dataset Taille: 48.52 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r8

  • Dataset Taille: 48.62 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.5_r9

  • Dataset Taille: 48.48 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r1

  • Dataset Taille: 49.32 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r2

  • Dataset Taille: 49.36 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r3

  • Dataset Taille: 49.85 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r4

  • Dataset Taille: 50.07 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r5

  • Dataset Taille: 49.86 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r6

  • Dataset Taille: 49.86 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r7

  • Dataset Taille: 49.42 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r8

  • Dataset Taille: 48.52 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd0.6_r9

  • Dataset Taille: 49.54 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r1

  • Dataset Taille: 49.75 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r2

  • Dataset Taille: 49.07 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r3

  • Dataset Taille: 50.22 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r4

  • Dataset Taille: 49.12 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r5

  • Dataset Taille: 48.80 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r6

  • Dataset Taille: 48.80 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r7

  • Dataset Taille: 50.69 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r8

  • Dataset Taille: 51.39 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968

cfq/cd1_r9

  • Dataset Taille: 49.94 MiB

  • scissions:

Diviser Exemples
'test' 11 968
'train' 95 743
'validation' 11 968