English Česky
Header Image n.1Header Image n.2Header Image n.3Header Image n.4Header Image n.5

Autoři

Jan Hajič, Eva Hajičová, Jarmila Panevová, Petr Sgall, Silvie Cinková, Eva Fučíková, Marie Mikulová, Petr Pajas, Jan Popelka, Jiří Semecký, Jana Šindlerová, Jan Štěpánek, Josef Toman, Zdeňka Urešová, Zdeněk Žabokrtský

Poděkování

Pražský česko-anglický závislostní korpus 2.0 vznikl společným úsilím mnoha zúčastněných. Jmenujeme je v abecedním pořádku. Výjimkou jsou publikace a nástroje, u kterých respektujeme pořadí autorů uvedené v bibliografii.

Koordinace (AJ, ČJ): Jan Hajič

Lingvistická podpora (AJ, ČJ): Eva Hajičová, Jarmila Panevová, Petr Sgall

Koordinace, zácvik anotátorů, anotační manuály:

  • AJ: Silvie Cinková
  • ČJ: Marie Mikulová

Valenční slovníky:

  • AJ (Engvallex): Jana Šindlerová
  • ČJ (PDT-Vallex): Zdeňka Urešová

Příprava dat k anotaci, technická podpora anotace a závěrečné kontroly:

  • EN: Silvie Cinková, Eva Fučíková, Josef Toman, Jiří Semecký
  • CZ: Marie Mikulová, Jan Popelka, Jan Štěpánek

Nejvýznamnější software a softwarové moduly pro zpracování dat: Petr Pajas, Zdeněk Žabokrtský

Další trénink anotátorů (AJ): Jana Šindlerová

Anotátoři:

  • anotace anglické hloubkové syntaxe (tektogramatická anotace): Kristýna Čermáková, Vojtěch Diatka, Matěj Korvas, Ema Krejčová, Jan Mašek, Anja Nedolužko, Lucie Poláková, Magdalena Rysová, Lenka Šíková, Jana Šindlerová, Kristýna Tomšů, Kateřina Veselá, Kateřina Veselovská
  • anotace české hloubkové syntaxe (tektogramatická anotace): Zuzanna Bedřichová, Kristýna Čermáková, Jitka Faktorová, Ivana Klímová, Martina Koppová, Alena Kropíková, Michala Lvová, Aneta Pečenková, Lenka Šíková, Katka Voleková, Olga Zitová
  • Anotace české povrchové syntaxe (analytická anotace) 2000 vět: Ivana Klímová
  • Anotace koreference na češtině: Eliška Černá, Veronika Čurdová, Eliška Davidová, Vojtěch Diatka, Ivan Kafka, Radka Mačugová, Hana Vildová, Klára Zindulková, Zdeněk Zůcha

Koordinace a revize překladu do češtiny: Marie Mikulová, Jan Štěpánek

Nástroje:

  • TrEd: Petr Pajas, Peter Fabian
  • btred: Petr Pajas
  • PML Tree Query: Petr Pajas, Jan Štěpánek
  • Treex: Zdeněk Žabokrtský, Martin Popel, David Mareček, Ondřej Bojar, Václav Klimeš, Tomáš Kraut, Václav Novák, Jan Ptáček, Rudolf Rosa, Daniel Zeman
  • Segmentace a tokenizace českých textů: Jan Hajič, Michal Křen
  • Morfologický analyzátor češtiny: Jan Hajič, Jaroslava Hlaváčová
  • Lemmatizace angličtiny: Jiří Semecký
  • Tagger češtiny: Jan Hajič
  • Parser analytické roviny pro češtinu: Jason Baldridge, Ryan McDonald (MST parser)
  • Parser tektogramatické roviny pro češtinu: Václav Klimeš
  • Obalovací skripty pro parsery: Jan Hajič
  • Aligner: David Mareček, Václav Novák, Zdeněk Žabokrtský
  • Webové rozhraní pro sledování postupu anotací: Eva Fučíková, Jiří Semecký, Jan Štěpánek, Josef Toman
  • XSH: Petr Pajas

Publikace:

  • Sběr: Silvie Cinková
  • Formátování: Josef Toman, Silvie Cinková

DVD-ROM a web design: Josef Toman

Validace dat: Eva Fučíková, Josef Toman

Doprovodná dokumentace: Silvie Cinková, Josef Toman, Jan Hajič

Anglická část PCEDT 2.0 čerpá z anotací od dalších autorů, které vznikly mimo UFAL. Třebaže se tyto anotace v mnohých lingvisticko-teoretických ohledech od tektogramatické reprezentace liší, anotace jsme s výhodou použili při přípravě dat pro naše anotátory. Jejich práce ušetřila našim anotátorům mnnoho času. Proto jsme velmi vděčni týmům, které vytvořily tzv. flat noun-phrase annotation (závorkování uvnitř složených jmenných frází jako např. XY&Co marketing department senior manager Mr. Robert Smith), Penn Treebank, PropBank, NomBank a BBN Pronoun Coreference and Entity Type Corpus. Děkujeme jejich autorům:

  • James R. Curran a David Vadas (flat noun phrase annotation)
  • Mitchell P. Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz a Ann Taylor (Penn Treebank)
  • Martha Palmer, Paul Kingsbury, Olga Babko-Malaya, Scott Cotton, a Benjamin Snyder (PropBank)
  • Martha Palmer, Karin Kipper, Edward Loper, Szuting Yi, Susan Brown, Arrick Lafranchi, Russell-Lee Goldman, Derek Trumbo, Andy Dolbey, Hoa Trang Dang, Neville Ryan, Benjamin Snyder (VerbNet)
  • Adam Meyers, Ruth Reeves, Catherine Macleod (NomBank)
  • Ralph Weischedel a Ada Brunstein (BBN Pronoun Coreference and Entity Type Corpus)

Česká část korpusu byla analyzována MST Parserem, který vyvinuli Jason Baldridge a Ryan McDonald.

Tento web používá ikony Oxygen (kromě jiných). Tyto ikony mohou být volně kopírovány pod LGPLv3.