Conferència: "Computational Linguistics against Hate: Datasets and Models for Hate Speech Detection on Social Media", a càrrec de Valerio Basile


Virtual. Podeu connectar-vos utilitzant aquest enllaç.

(Dimecres 9 de desembre, a les 11:30)

El centre d’investigació PRHLT de la Universitat Politècnica de València, en el marc del projecte MISMIS (MISinformation and MIScommunication in Social Media, PGC2018-096212-B), en el qual participen la UPV, la UB i la UNED, i l'IP del qual és el professor amb PI Paolo Rosso, organitza una sèrie de xerrades sobre discursos d’odi i llenguatge tòxic en línia. En aquest projecte, per part de la UB, hi participa el grup de recerca CLiC, Centre de Llenguatge i Computació.

Dimecres 9 de desembre a les 11:30 h tindrà lloc la primera xerrada, amb el títol "Computational Linguistics against Hate: Datasets and Models for Hate Speech Detection on Social Media", a càrrec del professor Valerio Basile (Hate Speech Monitoring Group, Universitat de Torí).

Biografia: Valerio Basile és professor ajudant de Content-centered Computing Group i del Hate Speech Monitoring Group de la Universitat de Torí. Es va doctorat l'any 2015 per Universitat de Groningen amb una tesi sobre generació de llenguatge natural. La seva recerca abasta diversos àmbits com ara: representacions formals de significat, anotació lingüística, generació de llenguatge natural, anàlisi semàntica, anàlisi de sentiments i detecció del discurs d'odi.

Abstract: Mass communication and social media greatly changed the way we communicate and access information. Along with their potential, they also provide a platform to disseminate and reverberate undesirable phenomena. The dark side of the Web hosts cyberbullying, misogyny, hate speech, and many other expressions of behaviours, with a negative impact on the offline world as well. In this talk, I will give an overview of the recent approaches in Natural Language Processing to the tasks related to abusive language and hate speech detection, mainly from a machine learning perspective. There are several relevant open issues which I will describe along with proposals for methodologies to overcome them. While several datasets are available for the English language, training a model for other languages can benefit from cross-lingual methods. Similarly, topic bias is a common feature of most training sets, and needs to be accounted for, with debiasing techniques or cross-domain methods. 

Standard models are also sensitive to the temporal dimension, whereas models trained on data from a time period are less effective on newly published data.Finally, I will present the results of several evaluation campaigns organized in order to assess the state of the art in language technology applied to these tasks, and an ongoing organizational effort to coordinate research on these topics at the European level.