Universal_dependencies

  • Mô tả :

Các phụ thuộc phổ quát (UD) là một khuôn khổ cho chú thích nhất quán về ngữ pháp (các phần của lời nói, các đặc điểm hình thái và các phụ thuộc cú pháp) trên các ngôn ngữ khác nhau của con người. UD là một nỗ lực của cộng đồng mở với hơn 300 người đóng góp tạo ra hơn 200 ngân hàng cây bằng hơn 100 ngôn ngữ. Nếu bạn chưa quen với UD, bạn nên bắt đầu bằng cách đọc phần đầu tiên của phần Giới thiệu ngắn và sau đó duyệt qua các hướng dẫn chú thích.

FeaturesDict({
    'deprel': Sequence(Text(shape=(), dtype=string)),
    'deps': Sequence(Text(shape=(), dtype=string)),
    'feats': Sequence(Text(shape=(), dtype=string)),
    'head': Sequence(Text(shape=(), dtype=string)),
    'idx': Text(shape=(), dtype=string),
    'lemmas': Sequence(Text(shape=(), dtype=string)),
    'misc': Sequence(Text(shape=(), dtype=string)),
    'text': Text(shape=(), dtype=string),
    'tokens': Sequence(Text(shape=(), dtype=string)),
    'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
    'xpos': Sequence(Text(shape=(), dtype=string)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
trục xuất Trình tự (Văn bản) (Không có,) sợi dây
người đẹp Trình tự (Văn bản) (Không có,) sợi dây
chiến công Trình tự (Văn bản) (Không có,) sợi dây
cái đầu Trình tự (Văn bản) (Không có,) sợi dây
idx Chữ sợi dây
bổ đề Trình tự (Văn bản) (Không có,) sợi dây
linh tinh Trình tự (Văn bản) (Không có,) sợi dây
chữ Chữ sợi dây
mã thông báo Trình tự (Văn bản) (Không có,) sợi dây
upos Trình tự (Nhãn lớp) (Không có,) int64
xpos Trình tự (Văn bản) (Không có,) sợi dây
@misc{11234/1-4758,
 title = {Universal Dependencies 2.10},
 author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann,  Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and  Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and  Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner  and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino,  Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and  Arican, Bilge Nas and Arnard{'o}ttir, {     H}{'o}runn and Arutie, Gashaw  and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz  Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and  Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva,  Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee,  Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson,  Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and  Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat  and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat,  Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene,  Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and  Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel  and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam  and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and  Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier  and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit,  G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A.  and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas  and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta  and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun,  Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a},  Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and  Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu,  Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu  and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva,  Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza,  Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa  and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and  Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and  Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec,  Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and  Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and  Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer  and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a},  Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos  and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio  Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga,  Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and  G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and  Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and  Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance,  C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson,  Hinrik and Hajic, Jan and Hajic jr., Jan and  H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and  Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and  Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and  Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava  and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi  and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola,  {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and  Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and  J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus  and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and  Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva,  Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and  Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and  Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn,  Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo  and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and  Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and  Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and  Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana  and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le  H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung,  Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and  Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister  and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and  Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and  Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek  and Mandl, Michael and Manning, Christopher and Manurung, Ruli and  Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and  Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and  Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena  and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and  Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness},  Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and  Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and  Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri  Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and  Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti,  Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and  Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek,  Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and  Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan  Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and  Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n  Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly  and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala,  Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura,  Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and  {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s},  {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r,  Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa  and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko  and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and  Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska,  Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and  Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and  Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily  and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel,  Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis,  Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo,  Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and  Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch,  Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit  and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and  Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika  and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa  and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf  and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga  and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and  Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi  and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and  Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and  Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and  Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster,  Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and  Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and  Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava,  Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline  and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o},  Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova,  Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and  Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and  Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka,  Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and  Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson,  Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and  Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki  and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle  and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga,  Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and  Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire  and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and  Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and  van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord,  Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la  Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa,  Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang,  Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer,  Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and  Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong,  Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and  Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M.  and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and  Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and  Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane,  Rayan
 },
 url = {http://hdl.handle.net/11234/1-4758},
 note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal  and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics,  Charles University},
 copyright = {Licence Universal Dependencies v2.10},
 year = {2022}
}

universal_dependencies/af_afribooms (cấu hình mặc định)

  • Mô tả cấu hình : UD Afrikaans-AfriBooms là một chuyển đổi của Ngân hàng cây phụ thuộc AfriBooms, ban đầu được chú thích bằng một bộ PoS đơn giản hóa và các mối quan hệ phụ thuộc theo một tập hợp con của bộ thẻ Stanford. Các văn bản bao gồm các tài liệu công cộng của chính phủ. Bộ dữ liệu được đề xuất trong 'AfriBooms: An Online Treebank for Afrikaans' của Augustinus et al. (2016); https://www.aclweb.org/anthology/L16-1107.pdf

  • Kích thước tải xuống : 2.95 MiB

  • Kích thước tập dữ liệu : 4.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 194
'test' 425
'train' 1.315

universal_dependencies/akk_pisandub

  • Mô tả cấu hình : Một tập hợp nhỏ các câu từ chữ khắc của hoàng gia Babylon.

  • Kích thước tải xuống : 99.41 KiB

  • Kích thước tập dữ liệu : 126.32 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 101

universal_dependencies/akk_riao

  • Mô tả cấu hình : UD_Akkadian-RIAO là một treebank nhỏ bao gồm 22 277 từ và 1845 câu. Điều này đại diện cho một tập hợp con còn nguyên vẹn trong tổng số 2211 câu từ các bản khắc đầu tiên của hoàng gia Tân Assyria vào thế kỷ thứ mười và thứ chín trước Công nguyên. Những chữ khắc hoàng gia này được trích xuất từ ​​Oracc (Open Richly Annotated Cuneiform Corpus; http://oracc.museum.upenn.edu/riao/ ), trong đó tất cả các chữ khắc hoàng gia Tân Assyria đều được viết từ ngữ theo từng từ. Ngôn ngữ của kho ngữ liệu là tiếng Babylon chuẩn, thỉnh thoảng có tiếng Assyria, trong khi "Akkadian" là thuật ngữ chung cho cả tiếng Assyria và tiếng Babylon. Treebank được chú thích thủ công theo hướng dẫn chú thích của UD.

  • Kích thước tải xuống : 1.87 MiB

  • Kích thước tập dữ liệu : 2.79 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.874

universal_dependencies/aqz_tudet

  • Mô tả cấu hình : UD_Akuntsu-TuDeT là tập hợp các văn bản được chú thích bằng Akuntsu. Cùng với UD_Tupinamba-TuDeT và UD_Munduruku-TuDeT, UD_Akuntsu-TuDeT là một phần của dự án TuLaR. Các câu đang được chú thích bởi Carolina Aragon và Fabrício Ferraz Gerardi.

  • Kích thước tải xuống : 67.25 KiB

  • Kích thước tập dữ liệu : 97.39 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 243

universal_dependencies/sq_tsa

  • Mô tả cấu hình : UD Treebank cho Standard Albanian (TSA) là một treebank nhỏ bao gồm 60 câu tương ứng với 922 mã thông báo. Dữ liệu được thu thập từ các mục Wikipedia khác nhau. Treebank này được tạo chủ yếu theo cách thủ công theo hướng dẫn của Universal Dependencies. Việc bổ sung được thực hiện bằng cách sử dụng công cụ bổ trợ https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ được phát triển bởi nhóm Corpus Quốc gia Albania (Maria Morozova, Alexander Rusakov, Timofey Arkhangelskiy). Gắn thẻ và Phân tích hình thái được bán tự động thông qua các tập lệnh python và được sửa theo cách thủ công, trong khi các mối quan hệ Phụ thuộc được chỉ định hoàn toàn thủ công. Chúng tôi khuyến khích mọi sáng kiến ​​để tăng quy mô và/hoặc cải thiện chất lượng tổng thể của Treebank.

  • Kích thước tải xuống : 62.00 KiB

  • Kích thước tập dữ liệu : 93.65 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 60

universal_dependencies/am_att

  • Mô tả cấu hình : UD_Amharic-ATT là một Treebanks được chú thích thủ công. Nó được chú thích cho thẻ POS, thông tin hình thái và quan hệ phụ thuộc. Vì tiếng Amharic là một ngôn ngữ phong phú về hình thái, pro-drop và có đặc điểm nhân đôi âm vị, nên các ngữ âm đã được phân đoạn thủ công.

  • Kích thước tải xuống : 995.32 KiB

  • Kích thước tập dữ liệu : 1.33 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.074

universal_dependencies/grc_perseus

  • Mô tả cấu hình : Ngân hàng cây phụ thuộc toàn cầu tiếng Hy Lạp cổ đại này bao gồm chuyển đổi tự động một số đoạn từ Ngân hàng cây phụ thuộc tiếng Hy Lạp và Latinh cổ đại 2.1

  • Kích thước tải xuống : 18.02 MiB

  • Kích thước tập dữ liệu : 24.52 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.137
'test' 1.306
'train' 11,476

universal_dependencies/grc_proiel

  • Mô tả cấu hình : Treebank PROIEL Hy Lạp cổ đại dựa trên dữ liệu Hy Lạp cổ đại từ treebank PROIEL, được duy trì tại Khoa Triết học, Kinh điển, Lịch sử Nghệ thuật và Ý tưởng tại Đại học Oslo. Chuyển đổi dựa trên bản phát hành 20180408 của ngân hàng cây PROIEL có sẵn từ https://github.com/proiel/proiel-treebank/releases Các chú thích ban đầu được xác nhận trong các tệp có sẵn ở đó. Mã chuyển đổi có sẵn trong Rubygem proiel-cli, https://github.com/proiel/proiel-cli

  • Kích thước tải xuống : 22.62 MiB

  • Kích thước tập dữ liệu : 30.92 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.019
'test' 1.047
'train' 15,014

universal_dependencies/apu_ufpa

  • Mô tả cấu hình : Bản phát hành đầu tiên chứa 70 câu được chú thích. Đây là treebank đầu tiên trong một ngôn ngữ từ gia đình Arawak. Các độ bóng xen kẽ ban đầu được bao gồm trong ngân hàng cây và việc chuyển đổi chúng thành chú thích UD đầy đủ là một quá trình đang diễn ra. Các giá trị send_id (ví dụ: FernandaM2017:Texto-6-19) là đại diện của nhà sưu tập, năm xuất bản, định danh văn bản và số câu theo thứ tự từ văn bản gốc.

  • Kích thước tải xuống : 95.51 KiB

  • Kích thước tập dữ liệu : 98.49 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 115

universal_dependencies/hbo_ptnk

  • Mô tả cấu hình : PTNK tiếng Do Thái cổ đại UD chứa các phần của Biblia Hebraic Stuttgartensia với các chú thích hình thái học từ ETCBC.

  • Kích thước tải xuống : 3.11 MiB

  • Kích thước tập dữ liệu : 4.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 439
'test' 410
'train' 730

universal_dependencies/ar_nyuad

  • Mô tả cấu hình : Treebank bao gồm 19.738 câu (738889 mã thông báo) và miền của nó chủ yếu là newswire. Chú thích được cấp phép theo các điều khoản của CC BY-SA 4.0 và PATB gốc có thể được lấy từ trang web chính thức của LDC.

  • Kích thước tải xuống : 55.87 MiB

  • Kích thước tập dữ liệu : 78.33 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.986
'test' 1.963
'train' 15,789

universal_dependencies/ar_padt

  • Mô tả cấu hình : Treebank UD tiếng Ả Rập-PADT dựa trên Treebank phụ thuộc tiếng Ả Rập Praha (PADT), được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 48.84 MiB

  • Kích thước tập dữ liệu : 64.42 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 909
'test' 680
'train' 6,075

universal_dependencies/ar_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.98 MiB

  • Kích thước tập dữ liệu : 2.34 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/aii_as

  • Mô tả cấu hình : The Uppsala Assyrian Treebank là một ngân hàng cây nhỏ dành cho người Assyria tiêu chuẩn hiện đại. Kho ngữ liệu được thu thập và chú thích thủ công. Dữ liệu được thu thập ngẫu nhiên từ các sách giáo khoa khác nhau và bản dịch ngắn của The Merchant of Venice.

  • Kích thước tải xuống : 31.99 KiB

  • Kích thước tập dữ liệu : 48.85 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 57

universal_dependencies/bm_crb

  • Mô tả cấu hình : Treebank UD Bambara là một phần của Corpus Référence du Bambara được chú thích nguyên bản với các Phụ thuộc phổ quát.

  • Kích thước tải xuống : 873.37 KiB

  • Kích thước tập dữ liệu : 1.25 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.026

universal_dependencies/eu_bdt

  • Mô tả cấu hình : Treebank Basque UD dựa trên chuyển đổi tự động từ một phần của Basque Dependency Treebank (BDT), được tạo tại Đại học xứ Basque bởi nhóm nghiên cứu IXA NLP. Treebank bao gồm 8.993 câu (121.443 mã thông báo) và chủ yếu bao gồm các văn bản văn học và báo chí.

  • Kích thước tải xuống : 7.83 MiB

  • Kích thước tập dữ liệu : 11.74 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.798
'test' 1.799
'train' 5,396

universal_dependencies/bej_nsc

  • Mô tả cấu hình : Kho văn bản phụ thuộc toàn cầu cho Beja, nhánh Bắc Cushitic của ngành Phi-Á chủ yếu được nói ở Sudan, Ai Cập và Eritrea.

  • Kích thước tải xuống : 136.52 KiB

  • Kích thước tập dữ liệu : 168.15 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 56

universal_dependencies/be_hse

  • Mô tả cấu hình : Treebank UD của Bêlarut dựa trên một mẫu văn bản tin tức có trong tiểu văn bản song song Bêlarut-Nga của Kho dữ liệu quốc gia Nga, tìm kiếm trực tuyến có sẵn tại: http://ruscorpora.ru/search-para-be.html

  • Kích thước tải xuống : 30.04 MiB

  • Kích thước tập dữ liệu : 39.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.301
'test' 1.077
'train' 22,853

universal_dependencies/bn_bru

  • Mô tả cấu hình : Treebank BRU Bengali đã được tạo tại Đại học Begum Rokeya, Rangpur, bởi các thành viên của Semantics Lab.

  • Kích thước tải xuống : 38.41 KiB

  • Kích thước tập dữ liệu : 51.42 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 56

universal_dependencies/bho_bhtb

  • Mô tả cấu hình : Bhojpuri UD Treebank (BHTB) v2.6 bao gồm 6.664 mã thông báo (357 câu). Treebank này là một phần của dự án ngân hàng cây phụ thuộc toàn cầu. Ban đầu, nó được khởi xướng bởi tôi (Atul) tại Đại học Jawaharlal Nehru, New Delhi trong quá trình nghiên cứu tiến sĩ. Dữ liệu BHTB chứa chú thích cú pháp theo lược đồ thành phần phụ thuộc, cũng như các thẻ và bổ đề hình thái. Trong dữ liệu này, XPOS được chú thích theo bộ thẻ Part Of Speech (POS) của Cục Tiêu chuẩn Ấn Độ (BIS).

  • Kích thước tải xuống : 599.76 KiB

  • Kích thước tập dữ liệu : 817.23 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 357

universal_dependencies/br_keb

  • Mô tả cấu hình : UD Breton-KEB là một treebank của Breton đã được chú thích theo cách thủ công theo nguyên tắc Phụ thuộc chung. Nguyên tắc mã thông báo hóa và chú thích hình thái đến từ một máy phân tích hình thái trạng thái hữu hạn của Breton được phát hành như một phần của dự án Apertium.

  • Kích thước tải xuống : 663.63 KiB

  • Kích thước tập dữ liệu : 863.36 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 888

universal_dependencies/bg_btb

  • Mô tả cấu hình : UD_Bulgarian-BTB dựa trên BulTreeBank dựa trên HPSG, được tạo tại Viện Công nghệ Thông tin và Truyền thông, Viện Hàn lâm Khoa học Bungari. Bản gốc bao gồm 215.000 mã thông báo (hơn 15.000 câu).

  • Kích thước tải xuống : 14.22 MiB

  • Kích thước tập dữ liệu : 20.01 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.115
'test' 1.116
'train' 8,907

universal_dependencies/bxr_bdt

  • Mô tả cấu hình : Ngân hàng cây UD Buryat được chú thích thủ công nguyên bản trong UD và chứa các câu trong sách ngữ pháp, cùng với tin tức và một số tiểu thuyết.

  • Kích thước tải xuống : 710.23 KiB

  • Kích thước tập dữ liệu : 1018.12 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 908
'train' 19

universal_dependencies/yue_hk

  • Mô tả cấu hình : Một treebank tiếng Quảng Đông (bằng ký tự Trung Quốc phồn thể) chứa phụ đề phim và thủ tục lập pháp của Hồng Kông, song song với treebank Trung Quốc-HK.

  • Kích thước tải xuống : 693.38 KiB

  • Kích thước tập dữ liệu : 1.04 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,004

universal_dependencies/ca_ancora

  • Mô tả cấu hình : Dữ liệu tiếng Catalan từ AnCora corpus.

  • Kích thước tải xuống : 48.14 MiB

  • Kích thước tập dữ liệu : 64.03 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.709
'test' 1.846
'train' 13,123

universal_dependencies/ceb_gja

  • Mô tả cấu hình : UD_Cebuano_GJA là tập hợp các câu mẫu tiếng Cebuano có chú thích được lấy ngẫu nhiên từ ba nguồn khác nhau: các mẫu do cộng đồng đóng góp từ trang web Tatoeba, sách ngữ pháp tiếng Cebuano của Bunye & Yap (1971) và ngữ pháp tham khảo về tiếng Cebuano của Tanangkinsing (2011). Dự án này hiện đang được tiến hành.

  • Kích thước tải xuống : 99.30 KiB

  • Kích thước tập dữ liệu : 136.74 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 188

universal_dependencies/zh_cfl

  • Mô tả cấu hình : Treebank UD tiếng Trung-CFL được Keying Li chú thích thủ công với các sửa đổi thủ công nhỏ của Herman Leung và John Lee tại Đại học Thành phố Hồng Kông, dựa trên các bài tiểu luận được viết bởi những người học tiếng Quan Thoại như một ngoại ngữ. Dữ liệu bằng tiếng Trung giản thể.

  • Kích thước tải xuống : 375.71 KiB

  • Kích thước tập dữ liệu : 558.45 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 451

universal_dependencies/zh_gsd

  • Mô tả cấu hình : Treebank phụ thuộc phổ quát truyền thống của Trung Quốc được chú thích và chuyển đổi bởi Google.

  • Kích thước tải xuống : 6.48 MiB

  • Kích thước tập dữ liệu : 8.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 500
'test' 500
'train' 3,997

universal_dependencies/zh_gsdsimp

  • Mô tả cấu hình : Bộ dữ liệu phụ thuộc phổ quát tiếng Trung giản thể được chuyển đổi từ bộ dữ liệu GSD (truyền thống) với các chỉnh sửa thủ công.

  • Kích thước tải xuống : 6.48 MiB

  • Kích thước tập dữ liệu : 8.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 500
'test' 500
'train' 3,997

universal_dependencies/zh_hk

  • Mô tả cấu hình : Một treebank truyền thống của Trung Quốc chứa phụ đề phim và các thủ tục lập pháp của Hồng Kông, song song với treebank Quảng Đông-HK.

  • Kích thước tải xuống : 482.85 KiB

  • Kích thước tập dữ liệu : 779.66 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,004

universal_dependencies/zh_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.53 MiB

  • Kích thước tập dữ liệu : 1.95 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/ckt_hse

  • Mô tả cấu hình : Dữ liệu này là chú thích thủ công của kho văn bản từ kho văn bản được chú thích đa phương tiện của dự án Chuklang, một kho văn bản phương ngữ của biến thể Amguema của Chukchi.

  • Kích thước tải xuống : 793.16 KiB

  • Kích thước tập dữ liệu : 828.50 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,004

universal_dependencies/lzh_kyoto

  • Mô tả cấu hình : Treebank phụ thuộc phổ quát tiếng Trung cổ điển được chú thích và chuyển đổi bởi Viện nghiên cứu nhân văn, Đại học Kyoto.

  • Kích thước tải xuống : 26.86 MiB

  • Kích thước tập dữ liệu : 39.40 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 5,687
'test' 4,932
'train' 48,569

universal_dependencies/cop_scriptorium

  • Mô tả cấu hình : UD Coptic chứa các văn bản Sahidic Coptic được chú thích thủ công, bao gồm các văn bản Kinh thánh, bài giảng, thư từ và thánh tích.

  • Kích thước tải xuống : 4.73 MiB

  • Kích thước tập dữ liệu : 6.12 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 381
'test' 403
'train' 1.227

universal_dependencies/hr_set

  • Mô tả cấu hình : Treebank UD của Croatia dựa trên phần mở rộng của kho văn bản SETimes-HR, kho văn bản hr500k.

  • Kích thước tải xuống : 14.41 MiB

  • Kích thước tập dữ liệu : 20.43 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 960
'test' 1.136
'train' 6,914

universal_dependencies/cs_cac

  • Mô tả cấu hình : Treebank UD_Czech-CAC dựa trên Czech Academic Corpus 2.0 (CAC; Český akademický korpus; ČAK), được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 53.72 MiB

  • Kích thước tập dữ liệu : 73.74 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 603
'test' 628
'train' 23,478

universal_dependencies/cs_cltt

  • Mô tả cấu hình : Treebank UD_Czech-CLTT dựa trên Treebank Văn bản pháp lý Séc 1.0, được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 3.57 MiB

  • Kích thước tập dữ liệu : 4.73 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 129
'test' 136
'train' 860

universal_dependencies/cs_fictree

  • Mô tả cấu hình : FicTree là một treebank tiểu thuyết của Séc, được tự động chuyển đổi sang định dạng UD. Treebank được xây dựng tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 16.65 MiB

  • Kích thước tập dữ liệu : 23.29 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.309
'test' 1.291
'train' 10.160

universal_dependencies/cs_pdt

  • Mô tả cấu hình : Treebank Czech-PDT UD dựa trên Treebank phụ thuộc Praha 3.0 (PDT), được tạo tại Đại học Charles ở Praha.

  • Kích thước tải xuống : 164.29 MiB

  • Kích thước tập dữ liệu : 224.30 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (nhà phát triển, kiểm tra), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'dev' 9.270
'test' 10,148
'train' 68,495

universal_dependencies/cs_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 2.14 MiB

  • Kích thước tập dữ liệu : 2.76 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/da_ddt

  • Mô tả cấu hình : Treebank UD của Đan Mạch là một chuyển đổi của Treebank phụ thuộc của Đan Mạch.

  • Kích thước tải xuống : 6.13 MiB

  • Kích thước tập dữ liệu : 9.15 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 564
'test' 565
'train' 4,383

universal_dependencies/nl_alpino

  • Mô tả cấu hình : Kho văn bản này bao gồm các mẫu từ nhiều ngân hàng cây khác nhau được chú thích tại Đại học Groningen bằng cách sử dụng các hướng dẫn và công cụ chú thích của Alpino.

  • Kích thước tải xuống : 15.98 MiB

  • Kích thước tập dữ liệu : 21.03 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 718
'test' 596
'train' 12,289

universal_dependencies/nl_lassysmall

  • Mô tả cấu hình : Tập văn bản này chứa các câu từ phần Wikipedia của Lassy Small Treebank. Chú thích Universal Dependency được tạo tự động từ chú thích ban đầu trong Lassy.

  • Kích thước tải xuống : 7.61 MiB

  • Kích thước tập dữ liệu : 9.86 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 676
'test' 876
'train' 5,789

universal_dependencies/en_esl

  • Mô tả cấu hình : UD English-ESL / Treebank of Learner English (TLE) chứa thẻ POS thủ công và chú thích phụ thuộc cho 5.124 câu tiếng Anh là ngôn ngữ thứ hai (ESL) được rút ra từ bộ dữ liệu Chứng chỉ đầu tiên về tiếng Anh (FCE) của Cambridge Learner Corpus.

  • Kích thước tải xuống : 3.20 MiB

  • Kích thước tập dữ liệu : 4.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 500
'test' 500
'train' 4,124

universal_dependencies/en_ewt

  • Mô tả cấu hình : Tập dữ liệu phụ thuộc phổ quát tiêu chuẩn vàng cho tiếng Anh, được xây dựng dựa trên tài liệu nguồn của Web Treebank tiếng Anh LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ).

  • Kích thước tải xuống : 16.37 MiB

  • Kích thước tập dữ liệu : 23.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2.001
'test' 2,077
'train' 12,543

universal_dependencies/en_gum

  • Mô tả cấu hình : Chú thích cú pháp Phụ thuộc phổ quát từ kho văn bản GUM ( https://corpling.uis.georgetown.edu/gum/ ).

  • Kích thước tải xuống : 13.81 MiB

  • Kích thước tập dữ liệu : 18.21 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.117
'test' 1.096
'train' 6,917

universal_dependencies/en_gumreddit

  • Mô tả cấu hình : Chú thích cú pháp Phụ thuộc phổ quát từ phần Reddit của kho văn bản GUM ( https://corpling.uis.georgetown.edu/gum/ )

  • Kích thước tải xuống : 1.47 MiB

  • Kích thước tập dữ liệu : 2.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 104
'test' 105
'train' 686

universal_dependencies/en_lines

  • Mô tả cấu hình : UD English_LinES là một nửa tiếng Anh của Ngân hàng cây song song LinES với chú thích phụ thuộc ban đầu trước tiên được tự động chuyển đổi thành Phụ thuộc chung và sau đó được xem xét một phần. Nội dung của nó bao gồm tài liệu, hướng dẫn trực tuyến và dữ liệu Europarl.

  • Kích thước tải xuống : 5.27 MiB

  • Kích thước tập dữ liệu : 7.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.032
'test' 1.035
'train' 3.176

universal_dependencies/en_atis

  • Mô tả cấu hình : UD Atis Treebank là một treebank được chú thích thủ công bao gồm các câu trong bộ dữ liệu Atis (Thông tin du lịch hàng không) bao gồm các bản phiên âm giọng nói của những người hỏi thông tin chuyến bay trên hệ thống hỏi tự động.

  • Kích thước tải xuống : 3.06 MiB

  • Kích thước tập dữ liệu : 4.76 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 572
'test' 586
'train' 4,274

universal_dependencies/en_partut

  • Mô tả cấu hình : UD_English-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.

  • Kích thước tải xuống : 2.59 MiB

  • Kích thước tập dữ liệu : 3.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 156
'test' 153
'train' 1.781

universal_dependencies/en_pronouns

  • Mô tả cấu hình : UD English-Pronouns là tập dữ liệu được tạo để giúp nhận dạng đại từ chính xác hơn và có sự phân bổ cân bằng hơn giữa các giới tính. Bộ dữ liệu ban đầu đang nhắm mục tiêu các đại từ Sở hữu cách độc lập, 'của cô ấy', (độc lập) 'của anh ấy', (số ít) 'của họ', 'của tôi' và (số ít) 'của bạn'.

  • Kích thước tải xuống : 138.08 KiB

  • Kích thước tập dữ liệu : 186.09 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 285

universal_dependencies/en_pud

  • Mô tả cấu hình : Đây là phần tiếng Anh của ngân hàng cây Các phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ chia sẻ CoNLL 2017 về Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Các phụ thuộc phổ biến ( http://universaldependencies.org/conll17/ ).

  • Kích thước tải xuống : 1.28 MiB

  • Kích thước tập dữ liệu : 1.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/myv_jr

  • Mô tả cấu hình : UD Erzya là chú thích gốc (CoNLL-U) cho các văn bản bằng ngôn ngữ Erzya, ban đầu nó bao gồm một mẫu từ một số tác giả tiểu thuyết viết bản gốc bằng tiếng Erzya.

  • Kích thước tải xuống : 1.88 MiB

  • Kích thước tập dữ liệu : 2.47 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.714

universal_dependencies/et_edt

  • Mô tả cấu hình : UD Estonian là phiên bản được chuyển đổi của Estonian Dependency Treebank (EDT), ban đầu được chú thích trong lược đồ chú thích Ngữ pháp ràng buộc (CG) và bao gồm các thể loại tiểu thuyết, văn bản báo chí và văn bản khoa học. Treebank chứa 30.972 cây, 437.769 mã thông báo.

  • Kích thước tải xuống : 31.09 MiB

  • Kích thước tập dữ liệu : 45.98 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 3,127
'test' 3,214
'train' 24,632

universal_dependencies/et_ewt

  • Mô tả cấu hình : Treebank UD EWT bao gồm các thể loại phương tiện mới khác nhau. Treebank chứa 4.493 cây, 56.399 mã thông báo.

  • Kích thước tải xuống : 5.35 MiB

  • Kích thước tập dữ liệu : 8.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 833
'test' 913
'train' 4,579

universal_dependencies/fo_farpahc

  • Mô tả cấu hình : UD_Icelandic-FarPaHC là một chuyển đổi của Kho dữ liệu lịch sử được phân tích cú pháp tiếng Faroese (FarPaHC) sang lược đồ Phụ thuộc phổ quát. Quá trình chuyển đổi được thực hiện bằng UDConverter.

  • Kích thước tải xuống : 2.09 MiB

  • Kích thước tập dữ liệu : 2.84 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 300
'test' 301
'train' 1.020

universal_dependencies/fo_oft

  • Mô tả cấu hình : Đây là một treebank của tiếng Faroe dựa trên Wikipedia tiếng Faroe.

  • Kích thước tải xuống : 783.86 KiB

  • Kích thước tập dữ liệu : 1.07 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.208

universal_dependencies/fi_ftb

  • Mô tả cấu hình : FinnTreeBank 1 bao gồm các ví dụ ngữ pháp được chú thích thủ công từ VISK. Phiên bản UD của FinnTreeBank 1 đã được chuyển đổi từ mô hình chú thích gốc bằng tập lệnh và sau đó được sửa đổi thủ công.

  • Kích thước tải xuống : 12.52 MiB

  • Kích thước tập dữ liệu : 18.45 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.875
'test' 1.867
'train' 14,981

universal_dependencies/fi_ood

  • Mô tả cấu hình : Phần Lan-OOD là bộ thử nghiệm ngoài miền bên ngoài dành cho Phần Lan-TDT được chú thích nguyên bản vào sơ đồ UD.

  • Kích thước tải xuống : 1.40 MiB

  • Kích thước tập dữ liệu : 2.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.122

universal_dependencies/fi_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.34 MiB

  • Kích thước tập dữ liệu : 1.80 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/fi_tdt

  • Mô tả cấu hình : UD_Finnish-TDT dựa trên Treebank phụ thuộc Turku (TDT), một treebank phụ thuộc có phạm vi bao phủ rộng của Phần Lan nói chung bao gồm nhiều thể loại. Việc chuyển đổi sang UD được theo sau bởi quá trình kiểm tra và chỉnh sửa thủ công rộng rãi, và treebank tuân thủ chặt chẽ các hướng dẫn của UD.

  • Kích thước tải xuống : 15.84 MiB

  • Kích thước tập dữ liệu : 23.17 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.364
'test' 1.555
'train' 12,217

universal_dependencies/fr_fqb

  • Mô tả cấu hình : Kho ngữ liệu UD_French-FQB là chuyển đổi tự động của Ngân hàng câu hỏi tiếng Pháp v1, một kho ngữ liệu hoàn toàn gồm các câu hỏi.

  • Kích thước tải xuống : 1.47 MiB

  • Kích thước tập dữ liệu : 2.32 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.289

universal_dependencies/fr_ftb

  • Mô tả cấu hình : Phiên bản Universal Dependency của French Treebank (Abeillé et al., 2003), sau đây gọi là UD_French-FTB, là một treebank các câu từ tờ báo Le Monde, ban đầu được chú thích thủ công với thông tin hình thái học và cấu trúc cụm từ, sau đó được chuyển đổi thành lược đồ chú thích Phụ thuộc phổ quát.

  • Kích thước tải xuống : 29.49 MiB

  • Kích thước tập dữ liệu : 44.93 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.235
'test' 2.541
'train' 14,759

universal_dependencies/fr_gsd

  • Mô tả cấu hình : UD_French-GSD đã được chuyển đổi vào năm 2015 từ phiên bản đầu nội dung của treebank phụ thuộc toàn cầu v2.0 ( https://github.com/ryanmcd/uni-dep-tb ). Nó được cập nhật từ năm 2015 độc lập với nguồn trước đó.

  • Kích thước tải xuống : 24.38 MiB

  • Kích thước tập dữ liệu : 35.77 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,476
'test' 416
'train' 14,449

universal_dependencies/fr_partut

  • Mô tả cấu hình : UD_French-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.

  • Kích thước tải xuống : 1.74 MiB

  • Kích thước tập dữ liệu : 2.44 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 107
'test' 110
'train' 803

universal_dependencies/fr_rhapsodie

  • Mô tả cấu hình : Kho dữ liệu phụ thuộc chung cho tiếng Pháp nói.

  • Kích thước tải xuống : 3.00 MiB

  • Kích thước tập dữ liệu : 4.10 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.082
'test' 840
'train' 1.288

universal_dependencies/fr_parisstories

  • Mô tả cấu hình : Paris Stories là một kho văn bản tiếng Pháp truyền miệng được thu thập và phiên âm bởi các sinh viên Ngôn ngữ học từ Sorbonne Nouvelle và được sửa chữa bởi các sinh viên từ Bằng Thạc sĩ Ngôn ngữ học Máy tính Đa âm (Inalco, Paris Nanterre, Sorbonne Nouvelle) từ năm 2017 đến 2021. Nó chứa các đoạn độc thoại và đối thoại từ diễn giả sống trong khu vực Paris.

  • Kích thước tải xuống : 1.97 MiB

  • Kích thước tập dữ liệu : 2.70 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 547
'train' 1.216

universal_dependencies/fr_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.71 MiB

  • Kích thước tập dữ liệu : 2.24 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/fr_sequoia

  • Mô tả cấu hình : UD_French-Sequoia là một chuyển đổi tự động của Sequoia Treebank corpus French Sequoia corpus.

  • Kích thước tải xuống : 4.21 MiB

  • Kích thước tập dữ liệu : 6.18 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 412
'test' 456
'train' 2.231

universal_dependencies/gl_ctg

  • Mô tả cấu hình : Treebank Galicia UD dựa trên phân tích cú pháp tự động của Galicia Technical Corpus ( http://sli.uvigo.gal/CTG ) do nhóm nghiên cứu TALG NLP tạo ra tại Đại học Vigo.

  • Kích thước tải xuống : 7.85 MiB

  • Kích thước tập dữ liệu : 10.81 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 860
'test' 861
'train' 2.272

universal_dependencies/gl_treegal

  • Mô tả cấu hình : Galician-TreeGal là một treebank dành cho Galicia được phát triển tại LyS Group (Đại học da Coruña).

  • Kích thước tải xuống : 1.66 MiB

  • Kích thước tập dữ liệu : 2.35 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 400
'train' 600

universal_dependencies/de_gsd

  • Mô tả cấu hình : UD của Đức được chuyển đổi từ phiên bản nội dung chính của treebank phụ thuộc phổ quát v2.0 (cũ).

  • Kích thước tải xuống : 20.69 MiB

  • Kích thước tập dữ liệu : 29.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 799
'test' 977
'train' 13,814

universal_dependencies/de_hdt

  • Mô tả cấu hình : UD German-HDT là một chuyển đổi của Hamburg Dependency Treebank, được tạo tại Đại học Hamburg thông qua chú thích thủ công kết hợp với một tiêu chuẩn cho các câu chú thích về mặt hình thái và cú pháp cũng như trình phân tích cú pháp dựa trên ràng buộc.

  • Kích thước tải xuống : 242.97 MiB

  • Kích thước tập dữ liệu : 347.93 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'dev' 18,434
'test' 18,459
'train' 153,035

universal_dependencies/de_lit

  • Mô tả cấu hình : Treebank này nhằm mục đích thu thập các văn bản về lịch sử văn học Đức. Hiện tại, nó lưu trữ Những mảnh vỡ của Chủ nghĩa lãng mạn thời kỳ đầu, tức là các văn bản giống như cách ngôn chủ yếu giải quyết các vấn đề triết học liên quan đến nghệ thuật, cái đẹp và các chủ đề liên quan.

  • Kích thước tải xuống : 1.97 MiB

  • Kích thước tập dữ liệu : 2.49 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,922

universal_dependencies/de_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.65 MiB

  • Kích thước tập dữ liệu : 2.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/got_proiel

  • Mô tả cấu hình : Ngân hàng cây UD Gothic dựa trên dữ liệu Gothic từ ngân hàng cây PROIEL và bao gồm bản dịch Kinh thánh của Wulfila.

  • Kích thước tải xuống : 4.98 MiB

  • Kích thước tập dữ liệu : 7.17 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 985
'test' 1.029
'train' 3,387

universal_dependencies/el_gdt

  • Mô tả cấu hình : Treebank UD Hy Lạp (UD_Greek-GDT) được lấy từ Treebank phụ thuộc Hy Lạp ( http://gdt.ilsp.gr ), một tài nguyên được phát triển và duy trì bởi các nhà nghiên cứu tại Viện Xử lý Ngôn ngữ và Lời nói/Athena RC ( http://www.ilsp.gr ).

  • Kích thước tải xuống : 5.52 MiB

  • Kích thước tập dữ liệu : 7.49 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 403
'test' 456
'train' 1.662

universal_dependencies/gub_tudet

  • Mô tả cấu hình : UD_Guajajara-TuDeT là tập hợp các câu được chú thích bằng tiếng Guajajara. Các câu xuất phát từ nhiều nguồn như mô tả ngôn ngữ, truyện ngắn, từ điển và bản dịch từ Tân Ước. Chú thích câu và tài liệu của Lorena Martín Rodríguez và Fabrício Ferraz Gerardi.

  • Kích thước tải xuống : 683.38 KiB

  • Kích thước tập dữ liệu : 738.09 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.126

universal_dependencies/gn_oldtudet

  • Mô tả cấu hình : UD_Guarani-OldTuDeT là tập hợp các văn bản được chú thích bằng tiếng Guaraní cổ. Tất cả các nguồn được biết đến trong ngôn ngữ này đang được chú thích: cathesism, ngữ pháp (thế kỷ mười bảy và mười tám), câu từ từ điển và các văn bản khác. Chú thích câu và tài liệu của Fabrício Ferraz Gerardi và Lorena Martín Rodríguez.

  • Kích thước tải xuống : 18.93 KiB

  • Kích thước tập dữ liệu : 24.71 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 59

universal_dependencies/he_htb

  • Mô tả cấu hình : Tập dữ liệu phụ thuộc chung cho tiếng Do Thái.

  • Kích thước tải xuống : 11.64 MiB

  • Kích thước tập dữ liệu : 16.10 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 484
'test' 491
'train' 5,241

universal_dependencies/he_iahltwiki

  • Mô tả cấu hình : Tập hợp con có sẵn công khai của phần Wikipedia của IAHLT UD Hebrew Treebank ( https://www.iahlt.org/ )

  • Kích thước tải xuống : 10.30 MiB

  • Kích thước tập dữ liệu : 14.16 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 348
'test' 393
'train' 4.298

universal_dependencies/qfn_fame

  • Mô tả cấu hình : UD_Frisian_Dutch-Fame là tuyển tập 400 câu từ FAME! văn bản lời nói của Yilmaz et al. (2016a, 2016b). Treebank được chú thích thủ công bằng lược đồ UD.

  • Kích thước tải xuống : 232.57 KiB

  • Kích thước tập dữ liệu : 290.88 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 400

universal_dependencies/qhe_hiencs

  • Mô tả cấu hình : Treebank chuyển đổi mã Hindi-English dựa trên các tweet chuyển đổi mã của những người nói đa ngôn ngữ Hindi và tiếng Anh (chủ yếu là người Ấn Độ) trên Twitter. Treebank được chú thích thủ công bằng UD sceheme. Các bộ đào tạo và đánh giá được chú thích riêng biệt bởi các nhà chú thích khác nhau bằng cách sử dụng hướng dẫn UD v2 và v1 tương ứng. Các bộ đánh giá được tự động chuyển đổi từ UD v1 sang v2.

  • Kích thước tải xuống : 893.15 KiB

  • Kích thước tập dữ liệu : 1.53 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 225
'test' 225
'train' 1.448

universal_dependencies/hi_hdtb

  • Mô tả cấu hình : Treebank UD tiếng Hindi dựa trên Treebank phụ thuộc tiếng Hindi (HDTB), được tạo tại IIIT Hyderabad, Ấn Độ.

  • Kích thước tải xuống : 49.18 MiB

  • Kích thước tập dữ liệu : 68.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1.659
'test' 1.684
'train' 13,304

universal_dependencies/hi_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 2.20 MiB

  • Kích thước tập dữ liệu : 2.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/hu_szeged

  • Mô tả cấu hình : Treebank UD của Hungary có nguồn gốc từ Treebank phụ thuộc Szeged (Vincze et al. 2010).

  • Kích thước tải xuống : 2.92 MiB

  • Kích thước tập dữ liệu : 4.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 441
'test' 449
'train' 910

phổ_phụ thuộc/là_hiện_đại

  • Mô tả cấu hình : UD_Icelandic-Modern là sự chuyển đổi các phần bổ sung hiện đại cho Kho dữ liệu lịch sử được phân tích cú pháp tiếng Iceland (IcePaHC) sang sơ đồ Phụ thuộc phổ quát.

  • Kích thước tải xuống : 9.02 MiB

  • Kích thước tập dữ liệu : 12.32 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 784
'test' 768
'train' 5,376

universal_dependencies/is_icepahc

  • Mô tả cấu hình : UD_Icelandic-IcePaHC là một chuyển đổi của Tập dữ liệu lịch sử được phân tích cú pháp tiếng Iceland (IcePaHC) sang sơ đồ Phụ thuộc phổ quát. Quá trình chuyển đổi được thực hiện bằng UDConverter.

  • Kích thước tải xuống : 81.16 MiB

  • Kích thước tập dữ liệu : 112.07 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 4.865
'test' 5,157
'train' 34,007

universal_dependencies/is_pud

  • Mô tả cấu hình : Icelandic-PUD là phần tiếng Iceland của ngân hàng cây Parallel Universal Dependencies (PUD).

  • Kích thước tải xuống : 1.45 MiB

  • Kích thước tập dữ liệu : 1.89 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/id_csui

  • Mô tả cấu hình : UD Indonesia-CSUI là một chuyển đổi từ một ngân hàng cây bầu cử Indonesia ở định dạng Penn Treebank có tên Kethu, đó cũng là một chuyển đổi từ một ngân hàng cây bầu cử được xây dựng bởi Dinakaramani et al. (2015). Chúng tôi đặt tên cho ngân hàng cây này là Indonesia-CSUI, vì cả ba phiên bản ngân hàng cây này đều được xây dựng tại Khoa Khoa học Máy tính, Đại học Indonesia.

  • Kích thước tải xuống : 1.62 MiB

  • Kích thước tập dữ liệu : 1.97 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 374
'train' 656

universal_dependencies/id_gsd

  • Mô tả cấu hình : UD Indonesia được chuyển đổi từ phiên bản đầu nội dung của treebank phụ thuộc phổ quát v2.0 (cũ).

  • Kích thước tải xuống : 9.15 MiB

  • Kích thước tập dữ liệu : 11.25 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 559
'test' 557
'train' 4,482

universal_dependencies/id_pud

  • Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ chia sẻ CoNLL 2017 về Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.

  • Kích thước tải xuống : 1.10 MiB

  • Kích thước tập dữ liệu : 1.44 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/ga_idt

  • Mô tả cấu hình : Một ngân hàng cây 4910 câu phụ thuộc toàn cầu cho tiếng Ireland hiện đại.

  • Kích thước tải xuống : 7.62 MiB

  • Kích thước tập dữ liệu : 10.77 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 451
'test' 454
'train' 4,005

universal_dependencies/ga_twittirish

  • Mô tả cấu hình : Một ngân hàng cây phụ thuộc toàn cầu gồm 866 tweet bằng tiếng Ireland hiện đại.

  • Kích thước tải xuống : 782.30 KiB

  • Kích thước tập dữ liệu : 1.13 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 866

universal_dependencies/it_isdt

  • Mô tả cấu hình : Tập văn bản tiếng Ý được chú thích theo sơ đồ chú thích UD thu được bằng cách chuyển đổi từ ISDT (Ngân hàng cây phụ thuộc Stanford của Ý), được phát hành cho nhiệm vụ chia sẻ phân tích cú pháp phụ thuộc của Evalita-2014 (Bosco et al. 2014).

  • Kích thước tải xuống : 20.03 MiB

  • Kích thước tập dữ liệu : 29.18 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 564
'test' 482
'train' 13,121

universal_dependencies/it_partut

  • Mô tả cấu hình : UD_Italian-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.

  • Kích thước tải xuống : 3.42 MiB

  • Kích thước tập dữ liệu : 4.83 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 156
'test' 153
'train' 1.781

universal_dependencies/it_postwita

  • Mô tả cấu hình : PoSTWITA-UD là tập hợp các tweet của Ý được chú thích trong Phần phụ thuộc chung có thể được khai thác để đào tạo các hệ thống NLP nhằm nâng cao hiệu suất của chúng trên các văn bản truyền thông xã hội.

  • Kích thước tải xuống : 7.27 MiB

  • Kích thước tập dữ liệu : 10.47 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 670
'test' 674
'train' 5,368

universal_dependencies/it_markit

  • Mô tả cấu hình : Đó là MarkIT Mới: Một Treebank Ý về các công trình được đánh dấu. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)

  • Download size : 2.48 MiB

  • Dataset size : 3.44 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 341
'test' 341
'train' 613

universal_dependencies/it_valico

  • Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.

  • Download size : 520.45 KiB

  • Dataset size : 657.38 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 398

universal_dependencies/it_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.56 MiB

  • Dataset size : 2.05 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/it_twittiro

  • Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.

  • Download size : 1.81 MiB

  • Dataset size : 2.51 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 144
'test' 142
'train' 1,138

universal_dependencies/it_vit

  • Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).

  • Download size : 16.77 MiB

  • Dataset size : 23.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 743
'test' 1,067
'train' 8,277

universal_dependencies/ja_pudluw

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 4.37 MiB

  • Dataset size : 5.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/ja_bccwjluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 59.20 MiB

  • Dataset size : 100.36 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 8,427
'test' 7,881
'train' 40,801

universal_dependencies/ja_gsdluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 28.31 MiB

  • Dataset size : 33.97 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 507
'test' 543
'train' 7,050

universal_dependencies/ja_bccwj

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 93.05 MiB

  • Dataset size : 157.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 8,427
'test' 7,881
'train' 40,801

universal_dependencies/ja_gsd

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 43.21 MiB

  • Dataset size : 52.59 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 507
'test' 543
'train' 7,050

universal_dependencies/ja_modern

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).

  • Download size : 2.06 MiB

  • Dataset size : 2.70 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 822

universal_dependencies/ja_pud

Tách ra ví dụ
'test' 1.000

universal_dependencies/jv_csui

  • Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.

  • Download size : 141.40 KiB

  • Dataset size : 171.69 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 125

universal_dependencies/urb_tudet

  • Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.

  • Download size : 24.74 KiB

  • Dataset size : 33.60 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 83

universal_dependencies/xnr_kdtb

  • Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.

  • Download size : 132.92 KiB

  • Dataset size : 196.42 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 288

universal_dependencies/krl_kkpp

  • Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 220.80 KiB

  • Dataset size : 317.02 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 228

universal_dependencies/kk_ktb

  • Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.

  • Download size : 833.88 KiB

  • Dataset size : 1.15 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,047
'train' 31

universal_dependencies/arr_tudet

  • Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.

  • Download size : 174.70 KiB

  • Dataset size : 259.24 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 674

universal_dependencies/kfm_aha

  • Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.

  • Download size : 6.14 KiB

  • Dataset size : 7.56 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 10

universal_dependencies/quc_iu

  • Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.

  • Download size : 823.85 KiB

  • Dataset size : 1.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,435

universal_dependencies/koi_uh

  • Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.

  • Download size : 99.43 KiB

  • Dataset size : 118.77 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 100

universal_dependencies/kpv_ikdp

  • Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.

  • Download size : 202.88 KiB

  • Dataset size : 273.92 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 214

universal_dependencies/kpv_lattice

  • Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.

  • Download size : 741.82 KiB

  • Dataset size : 989.46 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 663

universal_dependencies/ko_gsd

  • Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.

  • Download size : 4.66 MiB

  • Dataset size : 6.31 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 950
'test' 989
'train' 4,400

universal_dependencies/ko_kaist

  • Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.

  • Download size : 20.84 MiB

  • Dataset size : 27.97 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,066
'test' 2,287
'train' 23,010

universal_dependencies/ko_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.92 MiB

  • Dataset size : 2.12 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/kmr_mg

  • Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.

  • Download size : 747.04 KiB

  • Dataset size : 1.07 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 734
'train' 20

universal_dependencies/la_ittb

  • Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.

  • Download size : 40.75 MiB

  • Dataset size : 55.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,101
'test' 2,101
'train' 22,775

universal_dependencies/la_udante

  • Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).

  • Kích thước tải xuống : 4.87 MiB

  • Dataset size : 6.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 376
'test' 419
'train' 926

universal_dependencies/la_llct

  • Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.

  • Download size : 20.99 MiB

  • Dataset size : 27.77 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 850
'test' 884
'train' 7,289

universal_dependencies/la_perseus

  • Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1

  • Download size : 2.45 MiB

  • Dataset size : 3.53 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 939
'train' 1,334

universal_dependencies/la_proiel

  • Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.

  • Download size : 17.58 MiB

  • Dataset size : 25.21 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,234
'test' 1,260
'train' 15,917

universal_dependencies/lv_lvtb

  • Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.

  • Download size : 30.93 MiB

  • Dataset size : 42.49 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,957
'test' 2,325
'train' 12,521

universal_dependencies/lij_glt

  • Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.

  • Download size : 426.33 KiB

  • Dataset size : 636.88 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 296
'train' 20

universal_dependencies/lt_alksnis

  • Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).

  • Download size : 6.68 MiB

  • Dataset size : 9.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 617
'test' 684
'train' 2,341

universal_dependencies/lt_hse

  • Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.

  • Download size : 255.28 KiB

  • Dataset size : 1.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 153
'test' 153
'train' 153

universal_dependencies/olo_kkpp

  • Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 119.00 KiB

  • Dataset size : 165.75 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 106
'train' 19

universal_dependencies/nds_lsdc

  • Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.

  • Download size : 209.01 KiB

  • Dataset size : 280.72 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 83

universal_dependencies/mt_mudt

  • Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.

  • Download size : 1.92 MiB

  • Dataset size : 2.67 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 433
'test' 518
'train' 1,123

universal_dependencies/gv_cadhan

  • Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.

  • Download size : 1.26 MiB

  • Dataset size : 1.79 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2,319

universal_dependencies/mr_ufal

  • Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.

  • Download size : 330.87 KiB

  • Dataset size : 496.00 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 46
'test' 47
'train' 373

universal_dependencies/gun_dooley

  • Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.

  • Download size : 560.08 KiB

  • Dataset size : 859.37 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,046

universal_dependencies/gun_thomas

  • Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.

  • Download size : 90.88 KiB

  • Dataset size : 120.86 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 98

universal_dependencies/mdf_jr

  • Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.

  • Download size : 343.96 KiB

  • Dataset size : 451.57 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 342

universal_dependencies/myu_tudet

  • Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.

  • Download size : 67.85 KiB

  • Dataset size : 83.48 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 158

universal_dependencies/pcm_nsc

  • Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).

  • Download size : 16.99 MiB

  • Dataset size : 21.58 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 991
'test' 972
'train' 7,278

universal_dependencies/nyq_aha

  • Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.

  • Download size : 6.24 KiB

  • Dataset size : 7.72 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 10

universal_dependencies/sme_giella

  • Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.

  • Download size : 1.78 MiB

  • Dataset size : 2.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 865
'train' 2,257

universal_dependencies/no_bokmaal

  • Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 18.29 MiB

  • Dataset size : 27.60 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,409
'test' 1,939
'train' 15,696

universal_dependencies/no_nynorsk

  • Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 17.68 MiB

  • Dataset size : 26.46 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,890
'test' 1,511
'train' 14,174

universal_dependencies/no_nynorsklia

  • Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 3.19 MiB

  • Dataset size : 4.78 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 881
'test' 957
'train' 3,412

universal_dependencies/cu_proiel

  • Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.

  • Kích thước tải xuống : 5.92 MiB

  • Dataset size : 8.33 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,073
'test' 1,141
'train' 4,124

universal_dependencies/fro_srcmf

  • Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).

  • Download size : 13.51 MiB

  • Dataset size : 18.54 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,887
'test' 1,989
'train' 14,153

universal_dependencies/orv_birchbark

  • Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.

  • Download size : 4.04 MiB

  • Dataset size : 4.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,054
'test' 1,006
'train' 1.045

universal_dependencies/orv_rnc

  • Config description : UD_Old_Russian-RNC is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.

  • Download size : 2.95 MiB

  • Dataset size : 4.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 648
'train' 422

universal_dependencies/orv_torot

  • Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.

  • Download size : 14.49 MiB

  • Dataset size : 20.13 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,852
'test' 1,756
'train' 13,336

universal_dependencies/otk_tonqq

  • Config description : UD_Old_Turkish-Tonqq is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.

  • Download size : 10.44 KiB

  • Dataset size : 14.01 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 20

universal_dependencies/fa_perdt

  • Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).

  • Download size : 32.05 MiB

  • Dataset size : 43.48 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,456
'test' 1,455
'train' 26,196

universal_dependencies/fa_seraji

  • Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.

  • Download size : 9.43 MiB

  • Dataset size : 12.50 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 599
'test' 600
'train' 4,798

universal_dependencies/pl_lfg

  • Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.

  • Download size : 14.18 MiB

  • Dataset size : 18.96 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,745
'test' 1,727
'train' 13,774

universal_dependencies/pl_pdb

  • Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).

  • Download size : 34.66 MiB

  • Dataset size : 47.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,215
'test' 2,215
'train' 17,722

universal_dependencies/pl_pud

  • Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re

  • Download size : 1.91 MiB

  • Dataset size : 2.52 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/pt_bosque

  • Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.

  • Download size : 14.29 MiB

  • Dataset size : 20.41 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,172
'test' 1,167
'train' 7,018

universal_dependencies/pt_gsd

  • Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).

  • Download size : 14.57 MiB

  • Dataset size : 20.34 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,204
'test' 1,200
'train' 9,615

universal_dependencies/pt_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.48 MiB

  • Dataset size : 1.95 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/ro_art

  • Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.

  • Download size : 44.38 KiB

  • Dataset size : 65.95 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 50

universal_dependencies/ro_nonstandard

  • Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0

  • Download size : 48.00 MiB

  • Dataset size : 66.84 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,052
'test' 1,052
'train' 24,121

universal_dependencies/ro_rrt

  • Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.

  • Download size : 16.38 MiB

  • Dataset size : 22.96 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 752
'test' 729
'train' 8,043

universal_dependencies/ro_simonero

  • Config description : SiMoNERo is a medical corpus of contemporary Romanian.

  • Download size : 11.36 MiB

  • Dataset size : 15.68 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 443
'test' 491
'train' 3,747

universal_dependencies/ru_gsd

  • Config description : Russian Universal Dependencies Treebank annotated and converted by Google.

  • Kích thước tải xuống : 8.42 MiB

  • Dataset size : 11.51 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 579
'test' 601
'train' 3,850

universal_dependencies/ru_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.78 MiB

  • Dataset size : 2.26 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/ru_syntagrus

  • Config description : Russian data from the SynTagRus corpus.

  • Download size : 97.99 MiB

  • Dataset size : 139.66 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 6,584
'test' 6,491
'train' 48,814

universal_dependencies/ru_taiga

  • Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.

  • Download size : 18.12 MiB

  • Dataset size : 24.32 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 946
'test' 881
'train' 16,045

universal_dependencies/sa_ufal

  • Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.

  • Download size : 414.72 KiB

  • Dataset size : 407.83 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 230

universal_dependencies/sa_vedic

  • Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.

  • Download size : 1.95 MiB

  • Dataset size : 3.14 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,473
'train' 2,524

universal_dependencies/gd_arcosg

  • Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).

  • Download size : 5.07 MiB

  • Dataset size : 7.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 655
'test' 545
'train' 3,539

universal_dependencies/sr_set

  • Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.

  • Download size : 7.07 MiB

  • Dataset size : 10.04 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 536
'test' 520
'train' 3,328

universal_dependencies/sms_giellagas

  • Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.

  • Download size : 216.27 KiB

  • Dataset size : 299.21 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 218

universal_dependencies/sk_snk

  • Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.

  • Download size : 9.55 MiB

  • Dataset size : 13.87 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,060
'test' 1,061
'train' 8,483

universal_dependencies/sl_ssj

  • Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.

  • Download size : 19.82 MiB

  • Dataset size : 28.72 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,250
'test' 1,282
'train' 10,903

universal_dependencies/sl_sst

  • Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.

  • Download size : 2.53 MiB

  • Dataset size : 3.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1,110
'train' 2,078

universal_dependencies/soj_aha

  • Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.

  • Download size : 4.47 KiB

  • Dataset size : 5.58 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 8

universal_dependencies/ajp_madar

  • Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.

  • Download size : 42.16 KiB

  • Dataset size : 65.64 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 100

universal_dependencies/es_ancora

  • Config description : Spanish data from the AnCora corpus.

  • Download size : 50.23 MiB

  • Dataset size : 66.53 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,654
'test' 1,721
'train' 14,287

universal_dependencies/es_gsd

  • Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).

  • Download size : 24.86 MiB

  • Dataset size : 36.42 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,400
'test' 426
'train' 14,187

universal_dependencies/es_pud

Tách ra ví dụ
'test' 1.000

universal_dependencies/swl_sslc

  • Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.

  • Download size : 79.78 KiB

  • Dataset size : 122.04 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 82
'test' 34
'train' 87

universal_dependencies/sv_lines

  • Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.

  • Download size : 6.91 MiB

  • Dataset size : 9.18 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,032
'test' 1,035
'train' 3,176

universal_dependencies/sv_pud

  • Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.

  • Download size : 1.64 MiB

  • Dataset size : 2.13 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/sv_talbanken

  • Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.

  • Download size : 8.08 MiB

  • Dataset size : 11.40 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 504
'test' 1,219
'train' 4,303

universal_dependencies/gsw_uzh

  • Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.

  • Download size : 58.28 KiB

  • Dataset size : 86.61 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 100

universal_dependencies/tl_trg

  • Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.

  • Download size : 59.91 KiB

  • Dataset size : 84.14 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 128

universal_dependencies/tl_ugnayan

  • Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.

  • Download size : 53.91 KiB

  • Dataset size : 76.16 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 94

universal_dependencies/ta_mwtt

  • Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.

  • Download size : 394.18 KiB

  • Dataset size : 499.94 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 534

universal_dependencies/ta_ttb

  • Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.

  • Download size : 1.68 MiB

  • Dataset size : 2.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 80
'test' 120
'train' 400

universal_dependencies/te_mtg

  • Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.

  • Download size : 628.67 KiB

  • Dataset size : 866.20 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 131
'test' 146
'train' 1,051

universal_dependencies/th_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.53 MiB

  • Dataset size : 1.85 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/tpn_tudet

  • Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.

  • Download size : 293.55 KiB

  • Dataset size : 371.48 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Split ví dụ
'test' 546

universal_dependencies/qtd_sagt

  • Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.

  • Download size : 2.78 MiB

  • Dataset size : 4.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Split ví dụ
'dev' 801
'test' 805
'train' 578

universal_dependencies/tr_atis

  • Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.

  • Download size : 3.26 MiB

  • Dataset size : 5.09 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Split ví dụ
'dev' 572
'test' 586
'train' 4,274

universal_dependencies/tr_tourism

  • Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.

  • Download size : 6.48 MiB

  • Dataset size : 11.24 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 2,166
'test' 2.191
'train' 15,476

universal_dependencies/tr_kenet

  • Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.

  • Download size : 12.16 MiB

  • Dataset size : 19.00 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 1,646
'test' 1,643
'train' 15,398

universal_dependencies/tr_penn

  • Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)

  • Download size : 12.29 MiB

  • Dataset size : 18.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 622
'test' 924
'train' 14,850

universal_dependencies/tr_framenet

  • Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.

  • Download size : 1.43 MiB

  • Dataset size : 2.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 205
'test' 205
'train' 2,288

universal_dependencies/tr_boun

  • Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.

  • Download size : 9.07 MiB

  • Dataset size : 13.24 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 979
'test' 979
'train' 7,803

universal_dependencies/tr_gb

  • Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.

  • Download size : 1.41 MiB

  • Dataset size : 2.02 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2,880

universal_dependencies/tr_imst

  • Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).

  • Download size : 4.51 MiB

  • Dataset size : 6.70 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 988
'test' 983
'train' 3,664

universal_dependencies/tr_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.29 MiB

  • Dataset size : 1.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.000

universal_dependencies/uk_iu

  • Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]

  • Download size : 16.54 MiB

  • Dataset size : 21.99 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 672
'test' 892
'train' 5,496

universal_dependencies/hsb_ufal

  • Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.

  • Download size : 762.63 KiB

  • Dataset size : 1.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 623
'train' 23

universal_dependencies/ur_udtb

  • Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.

  • Download size : 15.16 MiB

  • Dataset size : 21.57 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 552
'test' 535
'train' 4,043

universal_dependencies/ug_udt

  • Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.

  • Download size : 3.30 MiB

  • Dataset size : 4.59 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 900
'test' 900
'train' 1,656

universal_dependencies/vi_vtb

  • Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).

  • Download size : 1.96 MiB

  • Dataset size : 2.81 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 800
'test' 800
'train' 1,400

universal_dependencies/wbp_ufal

  • Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.

  • Download size : 37.58 KiB

  • Dataset size : 47.36 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 55

universal_dependencies/cy_ccg

  • Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.

  • Download size : 2.28 MiB

  • Dataset size : 3.06 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 953
'train' 976

universal_dependencies/hy_armtdp

  • Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.

  • Download size : 6.56 MiB

  • Dataset size : 8.50 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 249
'test' 277
'train' 1,974

universal_dependencies/wo_wtb

  • Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.

  • Download size : 2.65 MiB

  • Dataset size : 3.78 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'dev' 449
'test' 470
'train' 1,188

universal_dependencies/sjo_xdt

  • Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.

  • Download size : 1.50 MiB

  • Dataset size : 1.74 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 810

universal_dependencies/sah_yktdt

  • Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis

  • Download size : 51.76 KiB

  • Dataset size : 61.70 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 96

universal_dependencies/yo_ytb

  • Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.

  • Download size : 554.64 KiB

  • Dataset size : 767.54 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 318

universal_dependencies/ess_sli

  • Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).

  • Download size : 302.87 KiB

  • Dataset size : 410.25 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 309