[ Skip to the content ]

Institute of Formal and Applied Linguistics

at Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


[ Back to the navigation ]

Publication


Year 2012
Type in proceedings without ISBN
Status published
Language English
Author(s) Holub, Martin Kríž, Vincent Cinková, Silvie Bick, Eckhard
Title Tailored Feature Extraction for Lexical Disambiguation of English Verbs Based on Corpus Pattern Analysis
Czech title Rysy šité na míru anglickým sloves°um pro automatickou lexikální disambiguaci pomocí Corpus Pattern Analysis
Proceedings 2012: Mumbai, India: COLING 2012: Proceedings of the 24th International Conference on Computational Linguistics (Coling 2012)
Pages range 1195-1209
How published print
Supported by 2012-2018 GBP103/12/G084 (Centrum pro multi-modální interpretaci dat velkého rozsahu) 2010-2015 LM2010013 (LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat) 2010-2013 FP7-ICT-2009-4-249119 (Meta-Net / T4ME Net) 2010-2013 7E11040 (Technologies for the Multilingual European Information Society) 2012-2016 PRVOUK P46 (Informatika)
Czech abstract Předkládáme detailní studii automatické lexikální disambiguace na pilotním vzorku třiceti anglických sloves za použití lexikonu vzorů slovesných užití (patterns), který vychází z Corpus Pattern Analysis (CPA). Tato inovátorská lexikografická metoda namísto na abstraktních definicích jednotlivých významů staví na souhře morfosyntaktické, lexikální a sémantické/pragmatické podobnosti slovesných užití. Natrénovali jsme několik statistických klasifikátorů na rozpoznávání těchto vzorů. Klasifikátory využívají jak morfosyntaktických, tak sémantických rysů. V naší studii se soustředíme na procedury pro extrakci rysů, jejich výběr a jejich evaluaci. Ukazujeme, že rysy na míru uzpůsobené jednotlivým slovesům, jež jsou implicitně obsaženy v definici každého vzoru v lexikonu, mají potenciál významně zvýšit přesnost statistických klasifikátorů s učitelem.
English abstract We give a report on a detailed study of automatic lexical disambiguation of 30 sample English verbs. We have trained and evaluate several statistical classifiers that use both morphosyntactic and semantic features to assign semantic patterns according to a pattern lexicon. Our system of semantic classification draws on the Corpus Pattern Analysis (CPA) — a novel lexicographic method that seeks to cluster verb uses according to the morpho-syntactic, lexical and semantic/pragmatic similarity of their contexts rather than their grouping according to abstract semantic definitions. In this paper we mainly concentrate on the procedures for feature extraction and feature selection. We show that features tailored to particular verbs using contextual clues given by the CPA method and explicitly described in the pattern lexicon have potential to significantly improve accuracy of supervised statistical classifiers.
Specialization linguistics ("jazykověda")
Confidentiality default – not confidential
Open access no
Editor(s)* Martin Kay; Christian Boitet
Address* Mumbai, India
Month* December
Venue* IIT Bombay, VMCC
Publisher* Coling 2012 Organizing Committee
Institution* IIT Bombay
Creator: Common Account
Created: 11/6/12 10:50 AM
Modifier: Common Account
Modified: 11/23/15 11:22 AM
***

Tailored Feature Extraction for Lexical Disambigua...publicPAPERS073.pdfapplication/pdf
Content, Design & Functionality: ÚFAL, 2006–2016. Page generated: Tue Sep 25 23:57:09 CEST 2018

[ Back to the navigation ] [ Back to the content ]

100% OpenAIRE compliant