Mareček David, Libovický Jindřich, Musil Tomáš, Rosa Rudolf, Limisiewicz Tomasz: Hidden in the Layers: Interpretation of Neural Networks for Natural Language Processing

Mareček David, Libovický Jindřich, Musil Tomáš, Rosa Rudolf, Limisiewicz Tomasz: Hidden in the Layers: Interpretation of Neural Networks for Natural Language Processing

MAREČEK DAVID, LIBOVICKÝ JINDŘICH, MUSIL TOMÁŠ, ROSA RUDOLF, LIMISIEWICZ TOMASZ (2020). Hidden in the Layers: Interpretation of Neural Networks for Natural Language Processing. ISBN 978-80-88132-10-3. 175 pp.

Preview BibTeX Buy

Summary:

In this book, we explore neural-network architectures and models that are used for Natural Language Processing (NLP). We analyze their internal representations (word-embeddings, hidden states, attention mechanism, and contextual embeddings) and review what properties these representations have and what kinds of linguistically interpretable features emerge in them. We use our own experimental results, as well as the results published by other research teams to present an overview of models and representations and their linguistic properties. In the beginning, we explain the basic concepts of deep learning and its usage in NLP and discuss details of the most prominent neural architectures and models. Then, we outline the concept of interpretability, different views on it, and introduce basic supervised and unsupervised methods that are used for interpreting trained neural-network models. The next part is devoted to static word embeddings. We show various methods for embeddings space visualization, component analysis and embedding space transformations for interpretation. Pretrained word embbedings contain information about both morphology and lexical semantics. When the embbedings are trained for a specific task, the embeddings tend to be organised by the information that is important for the given task (e.g. emotional polarity for sentiment analysis). We also analyze attention mechanisms, in which we can observe weighted links between representations of individual tokens. We show that the cross-lingual attentions mostly connect mutually corresponding tokens; however, in some cases, they may be very different from the traditional word-alignments. We mainly focus on self-attentions in Transformers. Some heads connect tokens with certain syntactic relations. This motivated researchers to infer syntactic trees from the self-attentions and compare them to the linguistic annotations. We summarize the amount of syntax in the attentions across the layers of several NLP models. We also point out the fact that attentions might sometimes be very misleading and may carry very different information from which we would think based on the attended tokens. In the last part, we look at contextual word embeddings and the linguistic features they capture. They constitute a clear improvement over static word embeddings, especially in terms of capturing morphological and syntactic features. However, some higher linguistic abstractions, such as semantics, seem to be reflected in the current contextual embeddings only very weakly or not at all.

Abstrakt

Obsahem této knihy je zkoumání architektur a modelů neuronových sítí, které se používají pro zpracování přirozeného jazyka (NLP). Analyzujeme jejich vnitřní reprezentace (vektorové reprezentace slov, skryté stavy, mechanismus pozornosti a kontextové reprezentace) a zkoumáme, jaké vlastnosti mají tyto reprezentace a jaké jazykově interpretovatelné rysy se v nich objevují. V prezentovaném přehledů modelů a jejich jazykových vlastností používáme jak své vlastní experimentální výsledky, tak i výsledky publikované jinými výzkumnými týmy. Na začátku vysvětlíme základní pojmy hlubokého učení a jeho využití v NLP a podrobně probereme nejvýznamnější architektury neuronových sítí a příslušné jejich modely. Poté nastíníme koncept interpretace, různé pohledy na ni a představíme základní řízené a neřízené metody, které se používají pro interpretování neuronových sítí. Další část je věnována statickým vektorovým reprezentacím slov. Ukážeme různé metody pro vizualizaci vektorového prostoru slovních reprezentací a metody pro analýzu komponent (PCA, ICA). Předtrénované slovní vektory obsahují informace o morfologii i lexikální sémantice. Pokud jsou vektory trénovány pro konkrétní úlohu, mají tendenci být organizovány podle informací, které jsou pro daný úkol důležité (např. emoční polarita pro analýzu sentimentu). V knize rovněž analyzujeme mechanismus pozornosti ("attention mechanism"), ve kterém sledujeme vztahy mezi reprezentacemi jednotlivých tokenů. Ukazujeme, že mezijazykové pozornosti ("cross-attentions") většinou spojují vzájemně si odpovídající tokeny; v některých případech se však mohou velmi lišit od tradičních slovních zarovnání. Hlavně se ale zaměřujeme na sebepozornost ("self-attentions") v sítích typu Transformer. Některé hlavy spojují tokeny s určitými syntaktickými vztahy. To motivovalo vědce odvodit syntaktické stromy na základě mechanismu sebepozornosti a porovnat je s lingvistickými anotacemi. Shrneme, jaké množství syntaxe pozorujeme napříč vrstvami několika pro několik různých NLP modelů. Rovněž poukazujeme na skutečnost, že mechanismus pozornosti může být někdy velmi zavádějící a může fungovat velmy odlišnám způsobem od toho, který bychom na základě zúčastněných tokenů předpokládali. V poslední části se podíváme na kontextové vektorové reprezentace slov a jazykové vlastnosti, které zachycují. Ty představují jasné vylepšení oproti statickým vektorovým reprezentacím slov, zejména pokud jde o zachycení morfologických a syntaktických znaků. Zdá se však, že některé vyšší jazykové abstrakce, jako je sémantika, se v současných kontextových reprezentacích odrážejí jen velmi slabě nebo vůbec.