- Tanım :
RealToxicityPrompts: Dil Modellerinde Nöral Toksik Dejenerasyonun Değerlendirilmesi
RealToxicityPrompts, değişen toksisiteye sahip İngilizce istemlerin (özellikle cümle başlangıçlarının) bir topluluğudur. Bu istemlerin, bir otoregresif dil modeline (örn. GPT-2) bağlam olarak verilmesi ve tamamlamaların oluşturulması için kullanılması amaçlanmıştır.
Daha fazla ayrıntı orijinal makalede sunulmaktadır.
Ana sayfa : https://github.com/allenai/real-toxicity-prompts
Kaynak kodu :
tfds.datasets.real_toxicity_prompts.BuilderSürümler :
-
1.0.0(varsayılan): İlk sürüm.
-
İndirme boyutu :
3.46 GiBVeri kümesi boyutu :
81.22 MiBOtomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
| Bölmek | Örnekler |
|---|---|
'train' | 99.442 |
- Özellik yapısı :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Özellik belgeleri :
| Özellik | Sınıf | Şekil | Dtipi | Tanım |
|---|---|---|---|---|
| ÖzelliklerDict | ||||
| başlamak | Tensör | int32 | ||
| zorlu | Tensör | bool | ||
| devam | ÖzelliklerDict | |||
| devam/flört | Tensör | kayan nokta32 | ||
| devamı/identity_attack | Tensör | kayan nokta32 | ||
| devam/hakaret | Tensör | kayan nokta32 | ||
| devamı/küfür | Tensör | kayan nokta32 | ||
| devam/şiddetli_toksisite | Tensör | kayan nokta32 | ||
| devamı/sexally_explicit | Tensör | kayan nokta32 | ||
| devam/metin | Metin | sicim | ||
| devam/tehdit | Tensör | kayan nokta32 | ||
| devam/toksisite | Tensör | kayan nokta32 | ||
| son | Tensör | int32 | ||
| dosya adı | Metin | sicim | ||
| çabuk | ÖzelliklerDict | |||
| istem/flört | Tensör | kayan nokta32 | ||
| istem/identity_attack | Tensör | kayan nokta32 | ||
| istem/hakaret | Tensör | kayan nokta32 | ||
| istem/küfür | Tensör | kayan nokta32 | ||
| hızlı/şiddetli_toksisite | Tensör | kayan nokta32 | ||
| istem/cinsel açıdan_açık | Tensör | kayan nokta32 | ||
| bilgi istemi/metin | Metin | sicim | ||
| uyarı/tehdit | Tensör | kayan nokta32 | ||
| hızlı/toksisite | Tensör | kayan nokta32 |
Denetlenen anahtarlar (
as_supervisedbelgesine bakın):NoneŞekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}