Pavel Pecina: Lexical Association Measures: Collocation Extraction

Pavel Pecina: Lexical Association Measures: Collocation Extraction

PECINA, PAVEL (2009). Lexical Association Measures: Collocation Extraction. ISBN 978-80-904175-5-7. 143 pp.

Preview BibTeX Buy

Abstrakt:

Tato kniha je věnovaná empirické studii lexikálních asociačních měr a jejich aplikaci v úloze automatické extrakce kolokací. Práce obsahuje vyčerpávající seznam 82 lexikálních asociačních měr ajejich evaluaci na celkem čtyřech referenčních datových množinách: závislostních bigramech z ručně anotovaného Pražského závislostního korpusu, povrchové bigramy ze stejného korpusu, instance prvků předchozí množiny z Českého národního korpusu opatřeného automatickou lemmatizací a morfologickým značkováním a vzdálenostními verbnominálními bigramy z automaticky značko­vaného švédského korpusu Parole. Kolokační kandidáti v referenčních množinách byli manuálně anotováni jako kolokace nebo nekolokace. Použité evaluační schéma je založeno na měření kvality seřazení kolokačních kandidátů dle jejich pravděpodobnosti tvořit kolokaci. Metody jsou porovnány pomocí precision-recall křivek a hodnot mean average precision, které jsou převzaty z oboru vyhle­dávání informací. Provedeny byly i testy signifikance výsledků. Dále je zkoumána možnost kombi­nování lexikálních asociačních měr a presentovány výsledky několika kombinačních metod, jejichž použití vedlo k výraznému zlepšení úspěšnosti řešení této úlohy. Dále je v práci navržen algoritmus významně redukující složitost použitých kombinačních modelů bez statisticky významného snížení jejich úspěšnosti.

Summary

This publication is devoted to an empirical study of lexical association measures and their application to collocation extraction. It presents a comprehensive inventory of lexical association measures and their evaluation on four reference data sets of collocation candidates: Czech dependency bigrams from the Prague Dependency Treebank, surface bigrams from the same source, instances of the latter from the Czech National Corpus, and Swedish distance verb-noun combinations obtained from the PAROLE corpus. The collocation candidates in the reference data sets were manually annotated and labeled as collocations or non-collocations by expert linguists. The evaluation scheme applied in this work is based on measuring the quality of ranking collocation candidates according to their chance to form collocations. The methods are compared by precision-recall curves, mean average precision scores, and appropriate tests of statistical significance. Further, the study focuses on the possibility of combining lexical association measures and discusses empirical results of several combination methods that significantly improve state of the art in collocation extraction. The work is concluded by a description of a model reduction algorithm that significantly reduces the number of combined measures without any statistically significant difference in performance.