Test-driving information theory-based compositional distributional semantics: A case study on Spanish song lyrics

Ghajari Espinosa, Adrián; Benito Santos, Alejandro; Ros Muñoz, Salvador; Fresno Fernández, Víctor Diego; González Blanco, Elena

Biblioteca Origen	uned3
Identificador	Adrián Ghajari, Alejandro Benito-Santos, Salvador Ros, Víctor Fresno, Elena González-Blanco, Test-driving information theory-based compositional distributional semantics: A case study on Spanish song lyrics, Knowledge-Based Systems, Volume 319, 2025, 113549, ISSN 0950-7051, https://doi.org/10.1016/j.knosys.2025.113549
Identificador	0950-7051
Identificador	https://doi.org/10.1016/j.knosys.2025.113549
Identificador	https://hdl.handle.net/20.500.14468/26536
Título	Test-driving information theory-based compositional distributional semantics: A case study on Spanish song lyrics
Autor	Ghajari Espinosa, Adrián
Autor	Benito Santos, Alejandro
Autor	Ros Muñoz, Salvador
Autor	Fresno Fernández, Víctor Diego
Autor	González Blanco, Elena
Materia	33 Ciencias Tecnológicas
Materia	compositional distributional semantics
Materia	semantic textual similarity
Materia	word embeddings
Materia	song lyrics
Resumen	The registered version of this article, first published in “Knowledge-Based Systems, vol. 319, 2025", is available online at the publisher s website: Elsevier, https://doi.org/10.1016/j.knosys.2025.113549 La versión registrada de este artículo, publicado por primera vez en “Knowledge-Based Systems, vol. 319, 2025", está disponible en línea en el sitio web del editor: Elsevier, https://doi.org/10.1016/j.knosys.2025.113549 \| Song lyrics pose unique challenges for semantic similarity assessment due to their metaphorical language, structural patterns, and cultural nuances - characteristics that often challenge standard natural language processing (NLP) approaches. These challenges stem from a tension between compositional and distributional semantics: while lyrics follow compositional structures, their meaning depends heavily on context and interpretation. The Information Theory-based Compositional Distributional Semantics framework offers a principled approach by integrating information theory with compositional rules and distributional representations. We evaluate eight embedding models on Spanish song lyrics, including multilingual, monolingual contextual, and static embeddings. Results show that multilingual models consistently outperform monolingual alternatives, with the domain-adapted ALBERTI achieving the highest F1 macro scores (78.92 ± 10.86). Our analysis reveals that monolingual models generate highly anisotropic embedding spaces, significantly impacting performance with traditional metrics. The Information Contrast Model metric proves particularly effective, providing improvements up to 18.04 percentage points over cosine similarity. Additionally, composition functions maintaining longer accumulated vector norms consistently outperform standard averaging approaches. Our findings have important implications for NLP applications and challenge standard practices in similarity calculation, showing that effectiveness varies with both task nature and model characteristics. \| versión publicada
Editor	ELSEVIER
Fecha de Publicación	2025-05-13T07:10:29Z \| 2025-05-13T07:10:29Z \| 2025-06-15
Tipo	journal article
Formato	application/pdf
Idioma	en
Relación	E.T.S. de Ingeniería Informática \| Lenguajes y Sistemas Informáticos
Derechos	info:eu-repo/semantics/openAccess \| http://creativecommons.org/licenses/by/4.0/deed.es
Información OAI
ID	oai:e-spacio.uned.es:20.500.14468/26536
Última Modificación	2025-08-15

e-ciencia