جهانی_وابستگی ها

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

وابستگی های جهانی (UD) چارچوبی برای حاشیه نویسی ثابت دستور زبان (بخش هایی از گفتار، ویژگی های صرفی، و وابستگی های نحوی) در زبان های مختلف انسانی است. UD یک تلاش جامعه باز با بیش از 300 مشارکت کننده است که بیش از 200 درخت درخت را به بیش از 100 زبان تولید می کنند. اگر در UD تازه کار هستید، باید با خواندن قسمت اول مقدمه کوتاه و سپس مرور دستورالعمل های حاشیه نویسی شروع کنید.

FeaturesDict({
    'deprel': Sequence(Text(shape=(), dtype=string)),
    'deps': Sequence(Text(shape=(), dtype=string)),
    'feats': Sequence(Text(shape=(), dtype=string)),
    'head': Sequence(Text(shape=(), dtype=string)),
    'idx': Text(shape=(), dtype=string),
    'lemmas': Sequence(Text(shape=(), dtype=string)),
    'misc': Sequence(Text(shape=(), dtype=string)),
    'text': Text(shape=(), dtype=string),
    'tokens': Sequence(Text(shape=(), dtype=string)),
    'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
    'xpos': Sequence(Text(shape=(), dtype=string)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
از بین بردن دنباله (متن) (هیچ یک،) رشته
deps دنباله (متن) (هیچ یک،) رشته
شاهکارها دنباله (متن) (هیچ یک،) رشته
سر دنباله (متن) (هیچ یک،) رشته
idx متن رشته
لم ها دنباله (متن) (هیچ یک،) رشته
متفرقه دنباله (متن) (هیچ یک،) رشته
متن متن رشته
توکن ها دنباله (متن) (هیچ یک،) رشته
upos دنباله (ClassLabel) (هیچ یک،) int64
xpos دنباله (متن) (هیچ یک،) رشته
@misc{11234/1-4758,
 title = {Universal Dependencies 2.10},
 author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann,  Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and  Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and  Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner  and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino,  Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and  Arican, Bilge Nas and Arnard{'o}ttir, {     H}{'o}runn and Arutie, Gashaw  and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz  Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and  Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva,  Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee,  Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson,  Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and  Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat  and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat,  Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene,  Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and  Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel  and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam  and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and  Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier  and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit,  G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A.  and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas  and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta  and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun,  Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a},  Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and  Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu,  Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu  and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva,  Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza,  Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa  and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and  Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and  Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec,  Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and  Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and  Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer  and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a},  Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos  and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio  Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga,  Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and  G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and  Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and  Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance,  C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson,  Hinrik and Hajic, Jan and Hajic jr., Jan and  H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and  Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and  Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and  Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava  and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi  and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola,  {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and  Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and  J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus  and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and  Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva,  Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and  Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and  Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn,  Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo  and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and  Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and  Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and  Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana  and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le  H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung,  Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and  Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister  and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and  Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and  Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek  and Mandl, Michael and Manning, Christopher and Manurung, Ruli and  Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and  Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and  Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena  and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and  Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness},  Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and  Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and  Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri  Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and  Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti,  Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and  Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek,  Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and  Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan  Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and  Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n  Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly  and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala,  Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura,  Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and  {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s},  {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r,  Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa  and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko  and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and  Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska,  Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and  Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and  Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily  and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel,  Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis,  Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo,  Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and  Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch,  Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit  and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and  Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika  and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa  and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf  and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga  and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and  Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi  and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and  Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and  Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and  Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster,  Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and  Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and  Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava,  Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline  and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o},  Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova,  Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and  Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and  Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka,  Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and  Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson,  Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and  Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki  and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle  and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga,  Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and  Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire  and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and  Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and  van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord,  Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la  Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa,  Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang,  Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer,  Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and  Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong,  Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and  Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M.  and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and  Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and  Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane,  Rayan
 },
 url = {http://hdl.handle.net/11234/1-4758},
 note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal  and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics,  Charles University},
 copyright = {Licence Universal Dependencies v2.10},
 year = {2022}
}

universal_dependencies/af_afribooms (پیکربندی پیش فرض)

  • توضیحات پیکربندی : UD African-AfriBooms تبدیلی از بانک درختی وابستگی AfriBooms است که در ابتدا با یک مجموعه PoS ساده و روابط وابستگی مطابق زیر مجموعه ای از مجموعه تگ استنفورد حاشیه نویسی شده است. مجموعه شامل اسناد دولتی عمومی است. مجموعه داده در «AfriBooms: An Treebank Online for African» توسط آگوستینوس و همکاران پیشنهاد شده است. (2016)؛ https://www.aclweb.org/anthology/L16-1107.pdf

  • حجم دانلود : 2.95 MiB

  • حجم مجموعه داده : 4.02 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 194
'test' 425
'train' 1,315

universal_dependencies/akk_pisandub

  • توضیحات پیکربندی : مجموعه کوچکی از جملات از کتیبه های سلطنتی بابل.

  • حجم دانلود : 99.41 KiB

  • اندازه مجموعه داده : 126.32 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 101

universal_dependencies/akk_riao

  • توضیحات پیکربندی : UD_Akkadian-RIAO یک درخت کوچک است که از 22277 کلمه و 1845 جمله تشکیل شده است. این نشان‌دهنده زیرمجموعه‌ای دست‌نخورده از مجموع ۲۲۱۱ جمله از کتیبه‌های سلطنتی نوآشوری در قرن دهم و نهم پیش از میلاد است. این کتیبه‌های سلطنتی از Oracc استخراج شده‌اند (Open Richly Annotated Corpus. زبان مجموعه، بابلی استاندارد، با آشوری گرایی های گاه به گاه است، در حالی که "اکدی" اصطلاحی است که هم برای آشوری و هم برای بابلی استفاده می شود. بانک درخت به صورت دستی با پیروی از دستورالعمل های حاشیه نویسی UD حاشیه نویسی شد.

  • حجم دانلود : 1.87 MiB

  • حجم مجموعه داده : 2.79 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1874

universal_dependencies/aqz_tudet

  • توضیحات پیکربندی : UD_Akuntsu-TuDeT مجموعه ای از متون حاشیه نویسی در Akuntsú است. به همراه UD_Tupinamba-TuDeT و UD_Munduruku-TuDeT، UD_Akuntsu-TuDeT بخشی از پروژه TuLaR است. جملات توسط کارولینا آراگون و فابریسیو فراز جراردی حاشیه نویسی می شود.

  • حجم دانلود : 67.25 KiB

  • اندازه مجموعه داده : 97.39 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 243

universal_dependencies/sq_tsa

  • توضیحات پیکربندی : UD Treebank برای استاندارد آلبانیایی (TSA) یک بانک درخت کوچک است که از 60 جمله مربوط به 922 توکن تشکیل شده است. داده ها از مدخل های مختلف ویکی پدیا جمع آوری شده است. این بانک درختی عمدتاً به صورت دستی و با پیروی از دستورالعمل‌های وابستگی جهانی ایجاد شده است. واژه‌سازی با استفاده از lemmatizer https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ که توسط تیم ملی آلبانیایی (Maria Morozova، Alexander Rusakov، Timofey Arkhangelskiy) توسعه یافته است، انجام شد. برچسب‌گذاری و تجزیه و تحلیل مورفولوژیکی از طریق اسکریپت‌های پایتون نیمه خودکار و به صورت دستی تصحیح شدند، در حالی که روابط وابستگی کاملاً دستی اختصاص داده شد. ما هر گونه طرحی را برای افزایش اندازه و/یا بهبود کیفیت کلی بانک درختی تشویق می کنیم.

  • حجم دانلود : 62.00 KiB

  • اندازه مجموعه داده : 93.65 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 60

universal_dependencies/am_att

  • توضیحات پیکربندی : UD_Amharic-ATT یک Treebanks به صورت دستی است. برای برچسب POS، اطلاعات مورفولوژیکی و روابط وابستگی حاشیه نویسی شده است. از آنجایی که زبان آمهری از نظر مورفولوژی غنی، طرفدار افت است و زبان هایی که دارای ویژگی دو برابر شدن کلیتیک هستند، زبانه ها به صورت دستی تقسیم بندی شده اند.

  • حجم دانلود : 995.32 KiB

  • حجم مجموعه داده : 1.33 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1074

universal_dependencies/grc_perseus

  • توضیحات پیکربندی : این بانک درختی یونان باستان وابستگی جهانی شامل تبدیل خودکار مجموعه‌ای از قطعات از بانک درختی وابستگی یونان باستان و لاتین 2.1 است.

  • حجم دانلود : 18.02 MiB

  • حجم مجموعه داده : 24.52 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,137
'test' 1,306
'train' 11476

universal_dependencies/grc_proiel

  • توضیحات پیکربندی : بانک درختی PROIEL یونان باستان بر اساس داده‌های یونان باستان از بانک درخت PROIEL است که در گروه فلسفه، کلاسیک، تاریخ هنر و ایده‌ها در دانشگاه اسلو نگهداری می‌شود. این تبدیل بر اساس نسخه 20180408 بانک درختی PROIEL است که از https://github.com/proiel/proiel-treebank/releases در دسترس است. حاشیه نویسان اصلی در فایل های موجود در آنجا تأیید می شوند. کد تبدیل در Rubygem proiel-cli موجود است، https://github.com/proiel/proiel-cli

  • حجم دانلود : 22.62 MiB

  • حجم مجموعه داده : 30.92 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1019
'test' 1,047
'train' 15,014

universal_dependencies/apu_ufpa

  • توضیحات پیکربندی : نسخه اولیه شامل 70 جمله مشروح است. این اولین درخت به زبانی از خانواده آراواک است. براق‌های بین خطی اصلی در بانک درخت گنجانده شده‌اند و تبدیل آنها به حاشیه‌نویسی کامل UD یک فرآیند مداوم است. مقادیر sent_id (به عنوان مثال: FernandaM2017:Texto-6-19) نماینده گردآورنده، سال انتشار، شناسه متن و تعداد جمله به ترتیب از متن اصلی است.

  • حجم دانلود : 95.51 KiB

  • اندازه مجموعه داده : 98.49 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 115

universal_dependencies/hbo_ptnk

  • شرح پیکربندی : UD PTNK عبری باستان شامل بخش‌هایی از Biblia Hebraic Stuttgartensia با حاشیه‌نویسی‌های مورفولوژیکی از ETCBC است.

  • حجم دانلود : 3.11 MiB

  • حجم مجموعه داده : 4.28 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 439
'test' 410
'train' 730

universal_dependencies/ar_nyuad

  • توضیحات پیکربندی : Treebank از 19738 جمله (738889 توکن) تشکیل شده است و دامنه آن عمدتا Newswire است. حاشیه نویسی تحت مجوز CC BY-SA 4.0 است و PATB اصلی را می توان از وب سایت رسمی LDC دریافت کرد.

  • حجم دانلود : 55.87 MiB

  • حجم مجموعه داده : 78.33 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,986
'test' 1,963
'train' 15789

universal_dependencies/ar_padt

  • توضیحات پیکربندی : بانک درختی Arabic-PADT UD بر اساس بانک درختی وابستگی عربی پراگ (PADT) است که در دانشگاه چارلز در پراگ ایجاد شده است.

  • حجم دانلود : 48.84 MiB

  • حجم مجموعه داده : 64.42 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 909
'test' 680
'train' 6,075

universal_dependencies/ar_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 1.98 MiB

  • حجم مجموعه داده : 2.34 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/aii_as

  • توضیحات پیکربندی : بانک درخت آشوری اوپسالا یک درخت کوچک برای آشوری استاندارد مدرن است. مجموعه به صورت دستی جمع آوری و حاشیه نویسی می شود. داده ها به طور تصادفی از کتاب های درسی مختلف و ترجمه کوتاهی از تاجر ونیز جمع آوری شد.

  • حجم دانلود : 31.99 KiB

  • اندازه مجموعه داده : 48.85 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 57

universal_dependencies/bm_crb

  • توضیحات پیکربندی : بانک درخت UD Bambara بخشی از Corpus Référence du Bambara است که به صورت بومی با وابستگی های جهانی مشروح شده است.

  • حجم دانلود : 873.37 KiB

  • حجم مجموعه داده : 1.25 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1026

universal_dependencies/eu_bdt

  • توضیحات پیکربندی : بانک درختی UD باسک بر اساس تبدیل خودکار بخشی از بانک درختی وابستگی باسک (BDT) است که در دانشگاه کشور باسک توسط گروه تحقیقاتی IXA NLP ایجاد شده است. بانک درخت شامل 8.993 جمله (121.443 توکن) است و عمدتاً متون ادبی و روزنامه نگاری را پوشش می دهد.

  • حجم دانلود : 7.83 MiB

  • حجم مجموعه داده : 11.74 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1798
'test' 1799
'train' 5,396

universal_dependencies/bej_nsc

  • شرح پیکربندی : مجموعه وابستگی های جهانی برای Beja، شاخه شمالی-کوشیتی از شاخه آفریقایی-آسیایی که عمدتاً در سودان، مصر و اریتره صحبت می شود.

  • حجم دانلود : 136.52 KiB

  • حجم مجموعه داده : 168.15 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 56

universal_dependencies/be_hse

  • توضیحات پیکربندی : بانک درختی UD بلاروس بر اساس نمونه‌ای از متون خبری موجود در زیرشاخه موازی بلاروسی-روسی مجموعه ملی روسیه است، جستجوی آنلاین موجود در: http://ruscorpora.ru/search-para-be.html

  • حجم دانلود : 30.04 MiB

  • حجم مجموعه داده : 39.88 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,301
'test' 1077
'train' 22,853

جهانی_وابستگی/bn_bru

  • توضیحات پیکربندی : بانک درختی BRU بنگالی در دانشگاه بیگم روکیا، رانگپور، توسط اعضای Semantics Lab ایجاد شده است.

  • حجم دانلود : 38.41 KiB

  • اندازه مجموعه داده : 51.42 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 56

جهانی_وابستگی/bho_bhtb

  • توضیحات پیکربندی : Bhojpuri UD Treebank (BHTB) نسخه 2.6 از 6664 توکن (357 جمله) تشکیل شده است. این بانک درختی بخشی از پروژه بانک درختی وابستگی جهانی است. در ابتدا، توسط من (عطول) در دانشگاه جواهر لعل نهرو، دهلی نو در طول کار تحقیقاتی دکترا آغاز شد. داده‌های BHTB حاوی حاشیه‌نویسی نحوی با توجه به طرح وابستگی-انتخابی، و همچنین برچسب‌ها و لم‌های صرفی است. در این داده‌ها، XPOS بر اساس مجموعه برچسب‌های دفتر استانداردهای هند (BIS) بخشی از گفتار (POS) حاشیه‌نویسی شده است.

  • حجم دانلود : 599.76 KiB

  • حجم مجموعه داده : 817.23 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 357

universal_dependencies/br_keb

  • توضیحات پیکربندی : UD Breton-KEB یک درخت برتون است که طبق دستورالعمل های وابستگی جهانی به صورت دستی حاشیه نویسی شده است. دستورالعمل‌های توکنیزاسیون و حاشیه‌نویسی مورفولوژیکی از یک تحلیلگر مورفولوژیکی حالت محدود برتون که به عنوان بخشی از پروژه Apertium منتشر شده است، می‌آید.

  • حجم دانلود : 663.63 KiB

  • حجم مجموعه داده : 863.36 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 888

universal_dependencies/bg_btb

  • توضیحات پیکربندی : UD_Bulgarian-BTB بر اساس BulTreeBank مبتنی بر HPSG است که در موسسه فناوری اطلاعات و ارتباطات، آکادمی علوم بلغارستان ایجاد شده است. نسخه اصلی از 215000 توکن (بیش از 15000 جمله) تشکیل شده است.

  • حجم دانلود : 14.22 MiB

  • حجم مجموعه داده : 20.01 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,115
'test' 1,116
'train' 8907

universal_dependencies/bxr_bdt

  • توضیحات پیکربندی : بانک درختی UD Buryat به صورت دستی در UD حاشیه نویسی شد و شامل جملات کتاب دستور زبان، همراه با اخبار و برخی داستان های تخیلی است.

  • حجم دانلود : 710.23 KiB

  • اندازه مجموعه داده : 1018.12 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 908
'train' 19

universal_dependencies/yue_hk

  • شرح پیکربندی : بانک درخت کانتونی (با حروف چینی سنتی) از زیرنویس‌های فیلم و مراحل قانونی هنگ کنگ، به موازات بانک درخت چین-هنگ کنگ.

  • حجم دانلود : 693.38 KiB

  • حجم مجموعه داده : 1.04 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1004

universal_dependencies/ca_ancora

  • توضیحات پیکربندی : داده های کاتالان از مجموعه AnCora.

  • حجم دانلود : 48.14 MiB

  • حجم مجموعه داده : 64.03 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,709
'test' 1,846
'train' 13,123

universal_dependencies/ceb_gja

  • توضیحات پیکربندی : UD_Cebuano_GJA مجموعه ای از جملات نمونه مشروح شده سبوانو است که به طور تصادفی از سه منبع مختلف گرفته شده است: نمونه های مشارکتی جامعه از وب سایت Tatoeba، یک کتاب دستور زبان سبوانو توسط Bunye & Yap (1971) و دستور زبان مرجع Tanangkinsing در Cebuano (201). این پروژه در حال حاضر در حال انجام است.

  • حجم دانلود : 99.30 KiB

  • حجم مجموعه داده : 136.74 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 188

universal_dependencies/zh_cfl

  • توضیحات پیکربندی : بانک درخت چینی-CFL UD به صورت دستی توسط Keying Li با بازبینی های دستی جزئی توسط Herman Leung و John Lee در دانشگاه سیتی هنگ کنگ، بر اساس مقالات نوشته شده توسط زبان آموزان چینی ماندارین به عنوان یک زبان خارجی، حاشیه نویسی شده است. داده ها به زبان چینی ساده شده است.

  • حجم دانلود : 375.71 KiB

  • اندازه مجموعه داده : 558.45 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 451

universal_dependencies/zh_gsd

  • توضیحات پیکربندی : بانک درختی وابستگی جهانی سنتی چینی که توسط Google حاشیه نویسی و تبدیل شده است.

  • حجم دانلود : 6.48 MiB

  • حجم مجموعه داده : 8.88 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 500
'test' 500
'train' 3,997

universal_dependencies/zh_gsdsimp

  • شرح پیکربندی : مجموعه داده وابستگی جهانی ساده چینی که از مجموعه داده های GSD (سنتی) با اصلاحات دستی تبدیل شده است.

  • حجم دانلود : 6.48 MiB

  • حجم مجموعه داده : 8.88 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 500
'test' 500
'train' 3,997

universal_dependencies/zh_hk

  • شرح پیکربندی : بانک درخت سنتی چینی از زیرنویس‌های فیلم و مراحل قانونی هنگ کنگ، به موازات بانک درخت کانتونی-هنگ کنگ.

  • حجم دانلود : 482.85 KiB

  • اندازه مجموعه داده : 779.66 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1004

universal_dependencies/zh_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 1.53 MiB

  • حجم مجموعه داده : 1.95 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/ckt_hse

  • توضیحات پیکربندی : این داده یک حاشیه نویسی دستی از مجموعه از مجموعه حاشیه نویسی چند رسانه ای پروژه Chuklang، مجموعه گویشی از نوع Amguema از Chukchi است.

  • حجم دانلود : 793.16 KiB

  • حجم مجموعه داده : 828.50 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1004

universal_dependencies/lzh_kyoto

  • توضیحات پیکربندی : بانک درختی وابستگی های جهانی کلاسیک چینی که توسط موسسه تحقیقات علوم انسانی، دانشگاه کیوتو، حاشیه نویسی و تبدیل شده است.

  • حجم دانلود : 26.86 MiB

  • حجم مجموعه داده : 39.40 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 5,687
'test' 4,932
'train' 48,569

universal_dependencies/cop_scriptorium

  • شرح پیکربندی : UD Coptic شامل متون قبطی سهیدی مشروح دستی، از جمله متون کتاب مقدس، خطبه ها، نامه ها، و هژیوگرافی است.

  • حجم دانلود : 4.73 MiB

  • حجم مجموعه داده : 6.12 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 381
'test' 403
'train' 1,227

universal_dependencies/hr_set

  • شرح پیکربندی : بانک درختی UD کرواسی بر اساس گسترش مجموعه SETimes-HR، مجموعه hr500k است.

  • حجم دانلود : 14.41 MiB

  • حجم مجموعه داده : 20.43 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 960
'test' 1,136
'train' 6914

universal_dependencies/cs_cac

  • توضیحات پیکربندی : بانک درختی UD_Czech-CAC بر اساس مجموعه آکادمیک چک 2.0 (CAC؛ Český akademický korpus؛ ČAK)، ایجاد شده در دانشگاه چارلز در پراگ است.

  • حجم دانلود : 53.72 MiB

  • حجم مجموعه داده : 73.74 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 603
'test' 628
'train' 23,478

universal_dependencies/cs_cltt

  • توضیحات پیکربندی : بانک درختی UD_Czech-CLTT بر اساس بانک متن قانونی چک 1.0 است که در دانشگاه چارلز در پراگ ایجاد شده است.

  • حجم دانلود : 3.57 MiB

  • حجم مجموعه داده : 4.73 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 129
'test' 136
'train' 860

universal_dependencies/cs_fictree

  • توضیحات پیکربندی : FicTree یک درخت از داستان های چک است که به طور خودکار به فرمت UD تبدیل می شود. کرانه درخت در دانشگاه چارلز در پراگ ساخته شد.

  • حجم دانلود : 16.65 MiB

  • حجم مجموعه داده : 23.29 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,309
'test' 1291
'train' 10,160

universal_dependencies/cs_pdt

  • توضیحات پیکربندی : بانک درختی چک-PDT UD بر اساس بانک درختی وابستگی پراگ 3.0 (PDT) است که در دانشگاه چارلز در پراگ ایجاد شده است.

  • حجم دانلود : 164.29 MiB

  • حجم مجموعه داده : 224.30 MiB

  • ذخیره خودکار ( مستندات ): بله (توسعه، آزمایش)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'dev' 9270
'test' 10,148
'train' 68,495

universal_dependencies/cs_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 2.14 MiB

  • حجم مجموعه داده : 2.76 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/da_ddt

  • توضیحات پیکربندی : بانک درختی UD دانمارکی تبدیلی به بانک درختی وابستگی دانمارکی است.

  • حجم دانلود : 6.13 MiB

  • حجم مجموعه داده : 9.15 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 564
'test' 565
'train' 4,383

universal_dependencies/nl_alpino

  • توضیحات پیکربندی : این مجموعه شامل نمونه هایی از درختان مختلف است که در دانشگاه گرونینگن با استفاده از ابزارها و دستورالعمل های حاشیه نویسی Alpino حاشیه نویسی شده اند.

  • حجم دانلود : 15.98 MiB

  • حجم مجموعه داده : 21.03 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 718
'test' 596
'train' 12289

universal_dependencies/nl_lassysmall

  • توضیحات پیکربندی : این مجموعه شامل جملاتی از بخش ویکی‌پدیا بانک درخت کوچک Lassy است. حاشیه نویسی وابستگی جهانی به طور خودکار از حاشیه نویسی اصلی در Lassy ایجاد شد.

  • حجم دانلود : 7.61 MiB

  • حجم مجموعه داده : 9.86 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 676
'test' 876
'train' 5789

universal_dependencies/en_esl

  • توضیحات پیکربندی : UD English-ESL / Treebank of Learner English (TLE) حاوی برچسب POS دستی و حاشیه نویسی وابستگی برای 5124 جمله انگلیسی به عنوان زبان دوم (ESL) است که از مجموعه مجموعه داده های Cambridge Learner Corpus First Certificate in English (FCE).

  • حجم دانلود : 3.20 MiB

  • حجم مجموعه داده : 4.72 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 500
'test' 500
'train' 4,124

universal_dependencies/en_ewt

  • شرح پیکربندی : یک مجموعه وابستگی استاندارد طلایی جهانی برای انگلیسی، ساخته شده بر روی منبع اصلی بانک Web Treebank انگلیسی LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ).

  • حجم دانلود : 16.37 MiB

  • حجم مجموعه داده : 23.60 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 2001
'test' 2077
'train' 12543

universal_dependencies/en_gum

  • شرح پیکربندی : حاشیه‌نویسی‌های نحوی وابستگی‌های جهانی از مجموعه GUM ( https://corpling.uis.georgetown.edu/gum/ ).

  • حجم دانلود : 13.81 MiB

  • حجم مجموعه داده : 18.21 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,117
'test' 1096
'train' 6917

universal_dependencies/en_gumreddit

  • توضیحات پیکربندی : حاشیه‌نویسی‌های نحوی وابستگی‌های جهانی از بخش Reddit از مجموعه GUM ( https://corpling.uis.georgetown.edu/gum/ )

  • حجم دانلود : 1.47 MiB

  • حجم مجموعه داده : 2.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 104
'test' 105
'train' 686

universal_dependencies/en_lines

  • توضیحات پیکربندی : UD English_LinES نیمه انگلیسی LinES Traebank موازی است که حاشیه‌نویسی وابستگی اصلی ابتدا به طور خودکار به وابستگی‌های جهانی تبدیل می‌شود و سپس تا حدی بازبینی می‌شود. محتوای آن شامل ادبیات، کتابچه راهنمای آنلاین و داده های Europarl می شود.

  • حجم دانلود : 5.27 MiB

  • حجم مجموعه داده : 7.54 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1032
'test' 1035
'train' 3,176

universal_dependencies/en_atis

  • توضیحات پیکربندی : UD Atis Treebank یک بانک درختی مشروح دستی است که شامل جملات موجود در مجموعه داده Atis (اطلاعات سفر هواپیمایی) است که شامل رونویسی گفتار انسانی افرادی است که اطلاعات پرواز را در سیستم‌های جستجوی خودکار درخواست می‌کنند.

  • حجم دانلود : 3.06 MiB

  • حجم مجموعه داده : 4.76 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 572
'test' 586
'train' 4274

universal_dependencies/en_partut

  • توضیحات پیکربندی : UD_English-ParTUT تبدیلی است از یک درخت چندزبانه موازی که در دانشگاه تورین توسعه یافته است و شامل انواع ژانرهای متنی، از جمله گفتگوها، متون قانونی و مقالات ویکی‌پدیا، و غیره است.

  • حجم دانلود : 2.59 MiB

  • حجم مجموعه داده : 3.65 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 156
'test' 153
'train' 1781

universal_dependencies/en_pronouns

  • توضیحات پیکربندی : UD English-Pronouns مجموعه داده‌ای است که برای شناسایی دقیق‌تر ضمایر و با توزیع متعادل‌تر بین جنسیت‌ها ایجاد شده است. مجموعه داده در ابتدا ضمایر جنسی مستقل، 'hers'، (مستقل) 'his'، (مفرد) 'irs'، 'mine' و (مفرد) 'yours' را هدف قرار می دهد.

  • حجم دانلود : 138.08 KiB

  • اندازه مجموعه داده : 186.09 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 285

universal_dependencies/en_pud

  • شرح پیکربندی : این بخش انگلیسی بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ( http://universaldependencies.org/conll17/ ) ایجاد شده است.

  • حجم دانلود : 1.28 MiB

  • حجم مجموعه داده : 1.82 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/myv_jr

  • توضیحات پیکربندی : UD Erzya حاشیه نویسی اصلی (CoNLL-U) برای متون به زبان Erzya است، در اصل شامل نمونه ای از تعدادی از نویسندگان داستانی است که نسخه های اصلی را به Erzya می نویسند.

  • حجم دانلود : 1.88 MiB

  • حجم مجموعه داده : 2.47 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1714

universal_dependencies/et_edt

  • توضیحات پیکربندی : UD Estonian نسخه تبدیل شده بانک درختی وابستگی استونیایی (EDT) است که در اصل در طرح حاشیه نویسی Constraint Grammar (CG) حاشیه نویسی شده است و شامل ژانرهای داستانی، متون روزنامه و متون علمی است. بانک درخت شامل 30972 درخت، 437769 توکن است.

  • حجم دانلود : 31.09 MiB

  • حجم مجموعه داده : 45.98 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 3,127
'test' 3,214
'train' 24632

universal_dependencies/et_ewt

  • توضیحات پیکربندی : بانک درختی UD EWT از ژانرهای مختلف رسانه جدید تشکیل شده است. بانک درخت شامل 4493 درخت، 56399 توکن است.

  • حجم دانلود : 5.35 MiB

  • حجم مجموعه داده : 8.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 833
'test' 913
'train' 4,579

universal_dependencies/fo_farpahc

  • توضیحات پیکربندی : UD_Icelandic-FarPaHC تبدیلی از مجموعه تاریخی تجزیه شده فارو (FarPaHC) به طرح وابستگی های جهانی است. تبدیل با استفاده از UDConverter انجام شد.

  • حجم دانلود : 2.09 MiB

  • حجم مجموعه داده : 2.84 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 300
'test' 301
'train' 1020

universal_dependencies/fo_oft

  • توضیحات پیکربندی : این یک درخت فاروئی بر اساس ویکی‌پدیای فاروئی است.

  • حجم دانلود : 783.86 KiB

  • حجم مجموعه داده : 1.07 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1208

universal_dependencies/fi_ftb

  • توضیحات پیکربندی : FinnTreeBank 1 شامل نمونه‌های دستوری مشروح دستی از VISK است. نسخه UD FinnTreeBank 1 از یک مدل حاشیه نویسی بومی با یک اسکریپت تبدیل شد و بعداً به صورت دستی اصلاح شد.

  • حجم دانلود : 12.52 MiB

  • حجم مجموعه داده : 18.45 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,875
'test' 1,867
'train' 14981

universal_dependencies/fi_ood

  • توضیحات پیکربندی : Finnish-OOD یک مجموعه تست خارجی خارج از دامنه برای فنلاندی-TDT است که به صورت بومی در طرح UD مشروح شده است.

  • حجم دانلود : 1.40 MiB

  • حجم مجموعه داده : 2.11 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 2,122

universal_dependencies/fi_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 1.34 MiB

  • حجم مجموعه داده : 1.80 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/fi_tdt

  • توضیحات پیکربندی : UD_Finnish-TDT بر اساس بانک درختی وابستگی تورکو (TDT) است، یک بانک درختی وابستگی با پوشش گسترده از فنلاند عمومی که ژانرهای متعددی را پوشش می‌دهد. تبدیل به UD با بررسی‌ها و اصلاحات دستی گسترده دنبال شد و بانک درختی دقیقاً به دستورالعمل‌های UD پایبند است.

  • حجم دانلود : 15.84 MiB

  • حجم مجموعه داده : 23.17 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,364
'test' 1,555
'train' 12217

universal_dependencies/fr_fqb

  • توضیحات پیکربندی : Corpus UD_French-FQB یک تبدیل خودکار از QuestionBank فرانسوی v1 است، مجموعه‌ای که کاملاً از سؤالات ساخته شده است.

  • حجم دانلود : 1.47 MiB

  • حجم مجموعه داده : 2.32 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 2289

universal_dependencies/fr_ftb

  • توضیحات پیکربندی : نسخه جهانی وابستگی بانک درختی فرانسوی (Abeillé et al., 2003)، از این پس UD_French-FTB، بانک درختی از جملات روزنامه لوموند است که در ابتدا به صورت دستی با اطلاعات صرفی و ساختار عبارت حاشیه نویسی شده و سپس به آن تبدیل شده است. طرح حاشیه نویسی وابستگی های جهانی.

  • حجم دانلود : 29.49 MiB

  • حجم مجموعه داده : 44.93 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1235
'test' 2,541
'train' 14759

universal_dependencies/fr_gsd

  • توضیح پیکربندی : UD_French-GSD در سال 2015 از نسخه سر محتوا از درخت بانک وابستگی جهانی نسخه 2.0 ( https://github.com/ryanmcd/uni-dep-tb ) تبدیل شد. از سال 2015 به طور مستقل از منبع قبلی به روز شده است.

  • حجم دانلود : 24.38 MiB

  • حجم مجموعه داده : 35.77 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,476
'test' 416
'train' 14,449

universal_dependencies/fr_partut

  • توضیحات پیکربندی : UD_French-ParTUT تبدیلی است از یک درخت موازی چندزبانه که در دانشگاه تورین توسعه یافته است و شامل انواع ژانرهای متنی از جمله گفتگوها، متون قانونی و مقالات ویکی‌پدیا و غیره است.

  • حجم دانلود : 1.74 MiB

  • حجم مجموعه داده : 2.44 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 107
'test' 110
'train' 803

universal_dependencies/fr_rhapsodie

  • توضیحات پیکربندی : مجموعه وابستگی های جهانی برای فرانسوی گفتاری.

  • حجم دانلود : 3.00 MiB

  • حجم مجموعه داده : 4.10 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1082
'test' 840
'train' 1288

universal_dependencies/fr_paristories

  • شرح پیکربندی : داستان‌های پاریس مجموعه‌ای از زبان فرانسه شفاهی است که توسط دانشجویان زبان‌شناسی از سوربن نوول جمع‌آوری و رونویسی شده و توسط دانشجویان مقطع کارشناسی ارشد زبان‌شناسی محاسباتی (Inalco، Paris Nanterre، Sorbonne Nouvelle) بین سال‌های 2017 و 2021 تصحیح شده است. این شامل مونولوگ است. دیالوگ های سخنرانانی که در منطقه پاریس زندگی می کنند.

  • حجم دانلود : 1.97 MiB

  • حجم مجموعه داده : 2.70 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 547
'train' 1,216

universal_dependencies/fr_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 1.71 MiB

  • حجم مجموعه داده : 2.24 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/fr_sequoia

  • توضیحات پیکربندی : UD_French-Sequoia تبدیل خودکار بدنه Sequoia Treebank به زبان فرانسوی Sequoia است.

  • حجم دانلود : 4.21 MiB

  • حجم مجموعه داده : 6.18 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 412
'test' 456
'train' 2231

universal_dependencies/gl_ctg

  • توضیحات پیکربندی : بانک درختی UD گالیسی بر اساس تجزیه خودکار مجموعه فنی گالیسی ( http://sli.uvigo.gal/CTG ) است که در دانشگاه ویگو توسط گروه تحقیقاتی TALG NLP ایجاد شده است.

  • حجم دانلود : 7.85 MiB

  • حجم مجموعه داده : 10.81 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 860
'test' 861
'train' 2272

universal_dependencies/gl_treegal

  • توضیحات پیکربندی : Galician-TreeGal یک بانک درخت برای زبان گالیسی است که در LyS Group (Universidade da Coruña) توسعه یافته است.

  • حجم دانلود : 1.66 MiB

  • حجم مجموعه داده : 2.35 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 400
'train' 600

universal_dependencies/de_gsd

  • شرح پیکربندی : UD آلمانی از نسخه سر محتوا از درخت بانک وابستگی جهانی نسخه 2.0 (میراث) تبدیل شده است.

  • حجم دانلود : 20.69 MiB

  • حجم مجموعه داده : 29.60 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 799
'test' 977
'train' 13,814

universal_dependencies/de_hdt

  • توضیحات پیکربندی : UD German-HDT تبدیلی از بانک درختی وابستگی هامبورگ است که در دانشگاه هامبورگ از طریق حاشیه نویسی دستی در ارتباط با استانداردی برای حاشیه نویسی صرفی و نحوی جملات و همچنین تجزیه کننده مبتنی بر محدودیت ایجاد شده است.

  • حجم دانلود : 242.97 MiB

  • حجم مجموعه داده : 347.93 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'dev' 18,434
'test' 18,459
'train' 153,035

universal_dependencies/de_lit

  • توضیحات پیکربندی : هدف این بانک درخت جمع آوری متون تاریخ ادبی آلمان است. در حال حاضر، بخش‌هایی از رمانتیسم اولیه، یعنی متون قصیده‌واری که عمدتاً به موضوعات فلسفی مربوط به هنر، زیبایی و موضوعات مرتبط می‌پردازند، میزبانی می‌کند.

  • حجم دانلود : 1.97 MiB

  • حجم مجموعه داده : 2.49 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,922

universal_dependencies/de_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 1.65 MiB

  • حجم مجموعه داده : 2.20 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/got_proiel

  • توضیحات پیکربندی : بانک درختی گوتیک UD بر اساس داده‌های گوتیک از بانک درخت PROIEL است و از ترجمه کتاب مقدس Wulfila تشکیل شده است.

  • حجم دانلود : 4.98 MiB

  • حجم مجموعه داده : 7.17 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 985
'test' 1029
'train' 3,387

universal_dependencies/el_gdt

  • توضیحات پیکربندی : بانک درختی یونانی UD (UD_Greek-GDT) از بانک درختی وابستگی یونانی ( http://gdt.ilsp.gr ) مشتق شده است، منبعی که توسط محققان موسسه پردازش زبان و گفتار/Athena RC توسعه و نگهداری می شود. http://www.ilsp.gr ).

  • حجم دانلود : 5.52 MiB

  • حجم مجموعه داده : 7.49 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 403
'test' 456
'train' 1662

universal_dependencies/gub_tudet

  • توضیحات پیکربندی : UD_Guajajara-TuDeT مجموعه ای از جملات حاشیه نویسی در گوجاجارا است. جملات از منابع متعددی مانند توصیف زبان، داستان های کوتاه، لغت نامه ها و ترجمه های عهد جدید سرچشمه می گیرند. حاشیه نویسی و مستندات جمله توسط لورنا مارتین رودریگز و فابریسیو فراز جراردی.

  • حجم دانلود : 683.38 KiB

  • حجم مجموعه داده : 738.09 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,126

universal_dependencies/gn_oldtudet

  • توضیحات پیکربندی : UD_Guarani-OldTuDeT مجموعه ای از متون حاشیه نویسی به زبان قدیمی Guaraní است. تمام منابع شناخته شده در این زبان حاشیه نویسی می شوند: کاتزیسم ها، دستور زبان ها (قرن هفدهم و هجدهم)، جملات از فرهنگ لغت، و متون دیگر. حاشیه نویسی و مستندات جمله توسط فابریسیو فراز جراردی و لورنا مارتین رودریگز.

  • حجم دانلود : 18.93 KiB

  • حجم مجموعه داده : 24.71 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 59

universal_dependencies/he_htb

  • توضیحات پیکربندی : مجموعه وابستگی های جهانی برای عبری.

  • حجم دانلود : 11.64 MiB

  • حجم مجموعه داده : 16.10 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 484
'test' 491
'train' 5,241

universal_dependencies/he_iahltwiki

  • توضیحات پیکربندی : زیرمجموعه در دسترس عموم از بخش ویکی‌پدیای IAHLT UD عبری Treebank ( https://www.iahlt.org/ )

  • حجم دانلود : 10.30 MiB

  • حجم مجموعه داده : 14.16 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 348
'test' 393
'train' 4298

universal_dependencies/qfn_fame

  • توضیحات پیکربندی : UD_Frisian_Dutch-Fame مجموعه ای از 400 جمله از FAME است! مجموعه گفتار توسط یلماز و همکاران. (2016a, 2016b). بانک درخت به صورت دستی با استفاده از طرح UD حاشیه نویسی می شود.

  • حجم دانلود : 232.57 KiB

  • حجم مجموعه داده : 290.88 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 400

وابستگی_های_جهانی/qhe_hiencs

  • توضیحات پیکربندی : بانک درختی تعویض کد هندی-انگلیسی بر اساس توییت‌های تعویض کد از گویشوران چند زبانه هندی و انگلیسی (عمدتاً هندی) در توییتر است. بانک درخت به صورت دستی با استفاده از طرح UD حاشیه نویسی می شود. مجموعه‌های آموزشی و ارزیابی‌ها به‌ترتیب با استفاده از دستورالعمل‌های UD v2 و v1 توسط حاشیه‌نویس‌های مختلف به‌طور جداگانه حاشیه‌نویسی شدند. مجموعه های ارزیابی به طور خودکار از UD v1 به v2 تبدیل می شوند.

  • حجم دانلود : 893.15 KiB

  • حجم مجموعه داده : 1.53 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 225
'test' 225
'train' 1,448

universal_dependencies/hi_hdtb

  • توضیحات پیکربندی : بانک درختی UD هندی بر اساس بانک درختی وابستگی هندی (HDTB) است که در IIIT حیدرآباد، هند ایجاد شده است.

  • حجم دانلود : 49.18 MiB

  • حجم مجموعه داده : 68.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1659
'test' 1684
'train' 13,304

universal_dependencies/hi_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 2.20 MiB

  • حجم مجموعه داده : 2.82 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/hu_szeged

  • توضیحات پیکربندی : بانک درختی UD مجارستانی از بانک درختی وابستگی Szeged مشتق شده است (Vincze et al. 2010).

  • حجم دانلود : 2.92 MiB

  • حجم مجموعه داده : 4.20 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 441
'test' 449
'train' 910

universal_dependencies/is_modern

  • شرح پیکربندی : UD_Icelandic-Modern تبدیلی از اضافات مدرن به مجموعه تاریخی تجزیه ایسلندی (IcePaHC) به طرح وابستگی های جهانی است.

  • حجم دانلود : 9.02 MiB

  • حجم مجموعه داده : 12.32 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 784
'test' 768
'train' 5,376

universal_dependencies/is_icepahc

  • شرح پیکربندی : UD_Icelandic-IcePaHC تبدیلی از مجموعه تاریخی تجزیه ایسلندی (IcePaHC) به طرح وابستگی های جهانی است. تبدیل با استفاده از UDConverter انجام شد.

  • حجم دانلود : 81.16 MiB

  • حجم مجموعه داده : 112.07 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 4,865
'test' 5,157
'train' 34007

universal_dependencies/is_pud

  • توضیحات پیکربندی : ایسلندی-PUD بخشی ایسلندی از درختان وابستگی های جهانی موازی (PUD) است.

  • حجم دانلود : 1.45 MiB

  • حجم مجموعه داده : 1.89 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/id_csui

  • توضیحات پیکربندی : UD Indonesian-CSUI تبدیلی از بانک درختی حوزه انتخابیه اندونزی در قالب Penn Treebank به نام Kethu است که همچنین تبدیلی از بانک درختی حوزه انتخابیه ساخته شده توسط Dinakaramani و همکاران است. (2015). ما این بانک درختی را اندونزیایی-CSUI نامیدیم، زیرا هر سه نسخه از درختان در دانشکده علوم کامپیوتر دانشگاه اندونزی ساخته شده بودند.

  • حجم دانلود : 1.62 MiB

  • حجم مجموعه داده : 1.97 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 374
'train' 656

universal_dependencies/id_gsd

  • توضیحات پیکربندی : UD اندونزیایی از نسخه سر محتوا از درخت بانک وابستگی جهانی نسخه 2.0 (میراث) تبدیل شده است.

  • حجم دانلود : 9.15 MiB

  • حجم مجموعه داده : 11.25 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 559
'test' 557
'train' 4,482

universal_dependencies/id_pud

  • توضیحات پیکربندی : این بخشی از بانک‌های درختی وابستگی‌های جهانی موازی (PUD) است که برای کار مشترک CoNLL 2017 در تجزیه چندزبانه از متن خام به وابستگی‌های جهانی ایجاد شده است.

  • حجم دانلود : 1.10 MiB

  • حجم مجموعه داده : 1.44 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1000

universal_dependencies/ga_idt

  • توضیحات پیکربندی : بانک درختی 4910 جمله ای وابستگی جهانی برای ایرلندی مدرن.

  • حجم دانلود : 7.62 MiB

  • حجم مجموعه داده : 10.77 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 451
'test' 454
'train' 4005

universal_dependencies/ga_twittirish

  • توضیحات پیکربندی : بانک درختی وابستگی جهانی از 866 توییت به زبان ایرلندی مدرن.

  • حجم دانلود : 782.30 KiB

  • حجم مجموعه داده : 1.13 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 866

universal_dependencies/it_isdt

  • شرح پیکربندی : مجموعه ایتالیایی حاشیه نویسی شده بر اساس طرح حاشیه نویسی UD با تبدیل از ISDT (بانک درختی وابستگی استانفورد ایتالیا) که برای تجزیه وابستگی وظیفه مشترک Evalita-2014 منتشر شد (Bosco et al. 2014) به دست آمد.

  • حجم دانلود : 20.03 MiB

  • حجم مجموعه داده : 29.18 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 564
'test' 482
'train' 13,121

universal_dependencies/it_partut

  • توضیحات پیکربندی : UD_Italian-ParTUT تبدیلی است از یک درخت موازی چندزبانه که در دانشگاه تورین توسعه یافته است و شامل انواع ژانرهای متنی، از جمله گفتگوها، متون قانونی و مقالات ویکی‌پدیا و غیره است.

  • حجم دانلود : 3.42 MiB

  • حجم مجموعه داده : 4.83 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 156
'test' 153
'train' 1781

universal_dependencies/it_postwita

  • توضیحات پیکربندی : PoSTWITA-UD مجموعه‌ای از توییت‌های ایتالیایی است که در وابستگی‌های جهانی مشروح شده‌اند که می‌توان از آن برای آموزش سیستم‌های NLP برای افزایش عملکرد آن‌ها در متون رسانه‌های اجتماعی استفاده کرد.

  • حجم دانلود : 7.27 MiB

  • حجم مجموعه داده : 10.47 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 670
'test' 674
'train' 5,368

universal_dependencies/it_markit

  • توضیحات پیکربندی : این MarkIT است که جدید است: بانک درخت ایتالیایی از ساختارهای علامت گذاری شده. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)

  • Download size : 2.48 MiB

  • Dataset size : 3.44 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 341
'test' 341
'train' 613

universal_dependencies/it_valico

  • Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.

  • Download size : 520.45 KiB

  • Dataset size : 657.38 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 398

universal_dependencies/it_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.56 MiB

  • Dataset size : 2.05 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/it_twittiro

  • Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.

  • Download size : 1.81 MiB

  • Dataset size : 2.51 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 144
'test' 142
'train' 1,138

universal_dependencies/it_vit

  • Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).

  • Download size : 16.77 MiB

  • Dataset size : 23.72 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 743
'test' 1,067
'train' 8,277

universal_dependencies/ja_pudluw

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 4.37 MiB

  • Dataset size : 5.11 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/ja_bccwjluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 59.20 MiB

  • Dataset size : 100.36 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 8,427
'test' 7,881
'train' 40,801

universal_dependencies/ja_gsdluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 28.31 MiB

  • Dataset size : 33.97 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 507
'test' 543
'train' 7,050

universal_dependencies/ja_bccwj

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 93.05 MiB

  • Dataset size : 157.62 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 8,427
'test' 7,881
'train' 40,801

universal_dependencies/ja_gsd

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 43.21 MiB

  • Dataset size : 52.59 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 507
'test' 543
'train' 7,050

universal_dependencies/ja_modern

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).

  • Download size : 2.06 MiB

  • Dataset size : 2.70 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 822

universal_dependencies/ja_pud

شکاف مثال ها
'test' 1,000

universal_dependencies/jv_csui

  • Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.

  • Download size : 141.40 KiB

  • Dataset size : 171.69 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 125

universal_dependencies/urb_tudet

  • Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.

  • Download size : 24.74 KiB

  • Dataset size : 33.60 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 83

universal_dependencies/xnr_kdtb

  • Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.

  • Download size : 132.92 KiB

  • Dataset size : 196.42 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 288

universal_dependencies/krl_kkpp

  • Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 220.80 KiB

  • Dataset size : 317.02 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 228

universal_dependencies/kk_ktb

  • Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.

  • Download size : 833.88 KiB

  • Dataset size : 1.15 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,047
'train' 31

universal_dependencies/arr_tudet

  • Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.

  • Download size : 174.70 KiB

  • Dataset size : 259.24 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 674

universal_dependencies/kfm_aha

  • Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.

  • Download size : 6.14 KiB

  • Dataset size : 7.56 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 10

universal_dependencies/quc_iu

  • Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.

  • Download size : 823.85 KiB

  • Dataset size : 1.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,435

universal_dependencies/koi_uh

  • Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.

  • Download size : 99.43 KiB

  • Dataset size : 118.77 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 100

universal_dependencies/kpv_ikdp

  • Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.

  • Download size : 202.88 KiB

  • Dataset size : 273.92 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 214

universal_dependencies/kpv_lattice

  • Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.

  • Download size : 741.82 KiB

  • Dataset size : 989.46 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 663

universal_dependencies/ko_gsd

  • Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.

  • Download size : 4.66 MiB

  • Dataset size : 6.31 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 950
'test' 989
'train' 4,400

universal_dependencies/ko_kaist

  • Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.

  • Download size : 20.84 MiB

  • Dataset size : 27.97 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 2,066
'test' 2,287
'train' 23,010

universal_dependencies/ko_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.92 MiB

  • Dataset size : 2.12 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/kmr_mg

  • Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.

  • Download size : 747.04 KiB

  • Dataset size : 1.07 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 734
'train' 20

universal_dependencies/la_ittb

  • Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.

  • Download size : 40.75 MiB

  • Dataset size : 55.54 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 2,101
'test' 2,101
'train' 22,775

universal_dependencies/la_udante

  • Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).

  • Download size : 4.87 MiB

  • Dataset size : 6.65 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 376
'test' 419
'train' 926

universal_dependencies/la_llct

  • Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.

  • Download size : 20.99 MiB

  • Dataset size : 27.77 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 850
'test' 884
'train' 7,289

universal_dependencies/la_perseus

  • Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1

  • Download size : 2.45 MiB

  • Dataset size : 3.53 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 939
'train' 1,334

universal_dependencies/la_proiel

  • Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.

  • Download size : 17.58 MiB

  • Dataset size : 25.21 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,234
'test' 1,260
'train' 15,917

universal_dependencies/lv_lvtb

  • Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.

  • Download size : 30.93 MiB

  • Dataset size : 42.49 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,957
'test' 2,325
'train' 12,521

universal_dependencies/lij_glt

  • Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.

  • Download size : 426.33 KiB

  • Dataset size : 636.88 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 296
'train' 20

universal_dependencies/lt_alksnis

  • Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).

  • Download size : 6.68 MiB

  • Dataset size : 9.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 617
'test' 684
'train' 2,341

universal_dependencies/lt_hse

  • Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.

  • Download size : 255.28 KiB

  • Dataset size : 1.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 153
'test' 153
'train' 153

universal_dependencies/olo_kkpp

  • Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 119.00 KiB

  • Dataset size : 165.75 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 106
'train' 19

universal_dependencies/nds_lsdc

  • Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.

  • Download size : 209.01 KiB

  • Dataset size : 280.72 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 83

universal_dependencies/mt_mudt

  • Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.

  • Download size : 1.92 MiB

  • Dataset size : 2.67 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 433
'test' 518
'train' 1,123

universal_dependencies/gv_cadhan

  • Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.

  • Download size : 1.26 MiB

  • Dataset size : 1.79 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 2,319

universal_dependencies/mr_ufal

  • Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.

  • Download size : 330.87 KiB

  • Dataset size : 496.00 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 46
'test' 47
'train' 373

universal_dependencies/gun_dooley

  • Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.

  • Download size : 560.08 KiB

  • Dataset size : 859.37 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,046

universal_dependencies/gun_thomas

  • Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.

  • Download size : 90.88 KiB

  • Dataset size : 120.86 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 98

universal_dependencies/mdf_jr

  • Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.

  • Download size : 343.96 KiB

  • Dataset size : 451.57 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 342

universal_dependencies/myu_tudet

  • Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.

  • Download size : 67.85 KiB

  • Dataset size : 83.48 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 158

universal_dependencies/pcm_nsc

  • Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).

  • Download size : 16.99 MiB

  • Dataset size : 21.58 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 991
'test' 972
'train' 7,278

universal_dependencies/nyq_aha

  • Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.

  • Download size : 6.24 KiB

  • Dataset size : 7.72 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 10

universal_dependencies/sme_giella

  • Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.

  • Download size : 1.78 MiB

  • Dataset size : 2.72 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 865
'train' 2,257

universal_dependencies/no_bokmaal

  • Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 18.29 MiB

  • Dataset size : 27.60 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 2,409
'test' 1,939
'train' 15,696

universal_dependencies/no_nynorsk

  • Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 17.68 MiB

  • Dataset size : 26.46 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,890
'test' 1511
'train' 14,174

universal_dependencies/no_nynorsklia

  • Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 3.19 MiB

  • Dataset size : 4.78 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 881
'test' 957
'train' 3,412

universal_dependencies/cu_proiel

  • Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.

  • Download size : 5.92 MiB

  • Dataset size : 8.33 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,073
'test' 1,141
'train' 4,124

universal_dependencies/fro_srcmf

  • Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).

  • Download size : 13.51 MiB

  • Dataset size : 18.54 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,887
'test' 1,989
'train' 14,153

universal_dependencies/orv_birchbark

  • Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.

  • Download size : 4.04 MiB

  • Dataset size : 4.72 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,054
'test' 1,006
'train' 1,045

universal_dependencies/orv_rnc

  • Config description : UD_Old_Russian-RNC is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.

  • Download size : 2.95 MiB

  • Dataset size : 4.02 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 648
'train' 422

universal_dependencies/orv_torot

  • Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.

  • Download size : 14.49 MiB

  • Dataset size : 20.13 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,852
'test' 1,756
'train' 13,336

universal_dependencies/otk_tonqq

  • Config description : UD_Old_Turkish-Tonqq is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.

  • Download size : 10.44 KiB

  • Dataset size : 14.01 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 20

universal_dependencies/fa_perdt

  • Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).

  • Download size : 32.05 MiB

  • Dataset size : 43.48 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,456
'test' 1,455
'train' 26,196

universal_dependencies/fa_seraji

  • Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.

  • Download size : 9.43 MiB

  • Dataset size : 12.50 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 599
'test' 600
'train' 4,798

universal_dependencies/pl_lfg

  • Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.

  • Download size : 14.18 MiB

  • Dataset size : 18.96 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,745
'test' 1,727
'train' 13,774

universal_dependencies/pl_pdb

  • Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).

  • Download size : 34.66 MiB

  • Dataset size : 47.62 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 2,215
'test' 2,215
'train' 17,722

universal_dependencies/pl_pud

  • Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re

  • Download size : 1.91 MiB

  • Dataset size : 2.52 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/pt_bosque

  • Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.

  • Download size : 14.29 MiB

  • Dataset size : 20.41 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,172
'test' 1,167
'train' 7,018

universal_dependencies/pt_gsd

  • Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).

  • Download size : 14.57 MiB

  • Dataset size : 20.34 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,204
'test' 1,200
'train' 9,615

universal_dependencies/pt_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.48 MiB

  • Dataset size : 1.95 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/ro_art

  • Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.

  • Download size : 44.38 KiB

  • Dataset size : 65.95 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 50

universal_dependencies/ro_nonstandard

  • Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0

  • Download size : 48.00 MiB

  • Dataset size : 66.84 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,052
'test' 1,052
'train' 24,121

universal_dependencies/ro_rrt

  • Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.

  • Download size : 16.38 MiB

  • Dataset size : 22.96 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 752
'test' 729
'train' 8,043

universal_dependencies/ro_simonero

  • Config description : SiMoNERo is a medical corpus of contemporary Romanian.

  • Download size : 11.36 MiB

  • Dataset size : 15.68 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 443
'test' 491
'train' 3,747

universal_dependencies/ru_gsd

  • Config description : Russian Universal Dependencies Treebank annotated and converted by Google.

  • Download size : 8.42 MiB

  • Dataset size : 11.51 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 579
'test' 601
'train' 3,850

universal_dependencies/ru_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.78 MiB

  • Dataset size : 2.26 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/ru_syntagrus

  • Config description : Russian data from the SynTagRus corpus.

  • Download size : 97.99 MiB

  • Dataset size : 139.66 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 6,584
'test' 6,491
'train' 48,814

universal_dependencies/ru_taiga

  • Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.

  • Download size : 18.12 MiB

  • Dataset size : 24.32 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 946
'test' 881
'train' 16,045

universal_dependencies/sa_ufal

  • Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.

  • Download size : 414.72 KiB

  • Dataset size : 407.83 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 230

universal_dependencies/sa_vedic

  • Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.

  • Download size : 1.95 MiB

  • Dataset size : 3.14 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,473
'train' 2,524

universal_dependencies/gd_arcosg

  • Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).

  • Download size : 5.07 MiB

  • Dataset size : 7.20 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 655
'test' 545
'train' 3,539

universal_dependencies/sr_set

  • Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.

  • Download size : 7.07 MiB

  • Dataset size : 10.04 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 536
'test' 520
'train' 3,328

universal_dependencies/sms_giellagas

  • Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.

  • Download size : 216.27 KiB

  • Dataset size : 299.21 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 218

universal_dependencies/sk_snk

  • Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.

  • Download size : 9.55 MiB

  • Dataset size : 13.87 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,060
'test' 1,061
'train' 8,483

universal_dependencies/sl_ssj

  • Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.

  • Download size : 19.82 MiB

  • Dataset size : 28.72 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1250
'test' 1,282
'train' 10,903

universal_dependencies/sl_sst

  • Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.

  • Download size : 2.53 MiB

  • Dataset size : 3.88 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,110
'train' 2,078

universal_dependencies/soj_aha

  • Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.

  • Download size : 4.47 KiB

  • Dataset size : 5.58 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 8

universal_dependencies/ajp_madar

  • Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.

  • Download size : 42.16 KiB

  • Dataset size : 65.64 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 100

universal_dependencies/es_ancora

  • Config description : Spanish data from the AnCora corpus.

  • Download size : 50.23 MiB

  • Dataset size : 66.53 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,654
'test' 1,721
'train' 14,287

universal_dependencies/es_gsd

  • Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).

  • Download size : 24.86 MiB

  • Dataset size : 36.42 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,400
'test' 426
'train' 14,187

universal_dependencies/es_pud

شکاف مثال ها
'test' 1,000

universal_dependencies/swl_sslc

  • Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.

  • Download size : 79.78 KiB

  • Dataset size : 122.04 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 82
'test' 34
'train' 87

universal_dependencies/sv_lines

  • Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.

  • Download size : 6.91 MiB

  • Dataset size : 9.18 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,032
'test' 1,035
'train' 3,176

universal_dependencies/sv_pud

  • Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.

  • Download size : 1.64 MiB

  • Dataset size : 2.13 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/sv_talbanken

  • Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.

  • Download size : 8.08 MiB

  • Dataset size : 11.40 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 504
'test' 1,219
'train' 4,303

universal_dependencies/gsw_uzh

  • Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.

  • Download size : 58.28 KiB

  • Dataset size : 86.61 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 100

universal_dependencies/tl_trg

  • Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.

  • Download size : 59.91 KiB

  • Dataset size : 84.14 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 128

universal_dependencies/tl_ugnayan

  • Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.

  • Download size : 53.91 KiB

  • Dataset size : 76.16 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 94

universal_dependencies/ta_mwtt

  • Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.

  • Download size : 394.18 KiB

  • Dataset size : 499.94 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 534

universal_dependencies/ta_ttb

  • Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.

  • Download size : 1.68 MiB

  • Dataset size : 2.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 80
'test' 120
'train' 400

universal_dependencies/te_mtg

  • Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.

  • Download size : 628.67 KiB

  • Dataset size : 866.20 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 131
'test' 146
'train' 1,051

universal_dependencies/th_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.53 MiB

  • Dataset size : 1.85 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/tpn_tudet

  • Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.

  • Download size : 293.55 KiB

  • Dataset size : 371.48 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 546

universal_dependencies/qtd_sagt

  • Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.

  • Download size : 2.78 MiB

  • Dataset size : 4.28 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 801
'test' 805
'train' 578

universal_dependencies/tr_atis

  • Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.

  • Download size : 3.26 MiB

  • Dataset size : 5.09 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 572
'test' 586
'train' 4,274

universal_dependencies/tr_tourism

  • Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.

  • Download size : 6.48 MiB

  • Dataset size : 11.24 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 2,166
'test' 2,191
'train' 15,476

universal_dependencies/tr_kenet

  • Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.

  • Download size : 12.16 MiB

  • Dataset size : 19.00 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 1,646
'test' 1,643
'train' 15,398

universal_dependencies/tr_penn

  • Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)

  • Download size : 12.29 MiB

  • Dataset size : 18.82 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 622
'test' 924
'train' 14,850

universal_dependencies/tr_framenet

  • Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.

  • Download size : 1.43 MiB

  • Dataset size : 2.28 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 205
'test' 205
'train' 2,288

universal_dependencies/tr_boun

  • Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.

  • Download size : 9.07 MiB

  • Dataset size : 13.24 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 979
'test' 979
'train' 7,803

universal_dependencies/tr_gb

  • Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.

  • Download size : 1.41 MiB

  • Dataset size : 2.02 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 2,880

universal_dependencies/tr_imst

  • Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).

  • Download size : 4.51 MiB

  • Dataset size : 6.70 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 988
'test' 983
'train' 3,664

universal_dependencies/tr_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.29 MiB

  • Dataset size : 1.65 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,000

universal_dependencies/uk_iu

  • Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]

  • Download size : 16.54 MiB

  • Dataset size : 21.99 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 672
'test' 892
'train' 5,496

universal_dependencies/hsb_ufal

  • Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.

  • Download size : 762.63 KiB

  • Dataset size : 1.11 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 623
'train' 23

universal_dependencies/ur_udtb

  • Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.

  • Download size : 15.16 MiB

  • Dataset size : 21.57 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 552
'test' 535
'train' 4,043

universal_dependencies/ug_udt

  • Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.

  • Download size : 3.30 MiB

  • Dataset size : 4.59 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 900
'test' 900
'train' 1,656

universal_dependencies/vi_vtb

  • Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).

  • Download size : 1.96 MiB

  • Dataset size : 2.81 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 800
'test' 800
'train' 1,400

universal_dependencies/wbp_ufal

  • Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.

  • Download size : 37.58 KiB

  • Dataset size : 47.36 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 55

universal_dependencies/cy_ccg

  • Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.

  • Download size : 2.28 MiB

  • Dataset size : 3.06 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 953
'train' 976

universal_dependencies/hy_armtdp

  • Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.

  • Download size : 6.56 MiB

  • Dataset size : 8.50 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 249
'test' 277
'train' 1,974

universal_dependencies/wo_wtb

  • Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.

  • Download size : 2.65 MiB

  • Dataset size : 3.78 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 449
'test' 470
'train' 1,188

universal_dependencies/sjo_xdt

  • Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.

  • Download size : 1.50 MiB

  • Dataset size : 1.74 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 810

universal_dependencies/sah_yktdt

  • Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis

  • Download size : 51.76 KiB

  • Dataset size : 61.70 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 96

universal_dependencies/yo_ytb

  • Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.

  • Download size : 554.64 KiB

  • Dataset size : 767.54 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 318

universal_dependencies/ess_sli

  • Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).

  • Download size : 302.87 KiB

  • Dataset size : 410.25 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 309