Vous êtes ici : Version française > Promotions accueillies > Promotions antérieures
-
Partager cette page
Coordonnées
Thèmes de recherche
PROJET
MODELISATION DES CHANGEMENTS LINGUISTIQUES ET DE LA FORMATION D'UNE COMMUNAUTE DANS DE GRANDS CORPUS TEXTUELS
Ce projet porte sur la modélisation, la compréhension et la visualisation de l'évolution du langage au fil du temps. L'objectif du projet est de comprendre comment les changements intra-auteurs reflètent l'émergence de sous-communautés et de formes de pouvoir dans des contextes discursifs spécifiques. Ce projet de recherche offre un aperçu particulier de la manière dont les gens interagissent dans les espaces numériques, une tâche particulièrement importante compte tenu de la prévalence accrue des interactions sociales qui se produisent sur des plateformes numériques en apparence anonymes. Mon projet reprend des travaux antérieurs portant sur le changement linguistique temporel dans le traitement du langage naturel et des humanités numériques. Le fait que les communautés d'expertise se construisent autour de termes et de constructions linguistiques particuliers est un phénomène connu. Les membres extérieurs à la communauté acquièrent activement ces caractéristiques afin d'être acceptés dans une sphère d'influence. Le droit, le monde universitaire, la médecine et la politique sont des exemples de communautés avec des signaux linguistiques forts. Comprendre les changements de langage intra-auteurs permet de détecter et de modéliser ce phénomène. Il a également des implications plus larges pour l’étude de la formation de communautés et des structures d’expertise et de formation de sujets.
Deux ensembles de données servent d’applications directes pour le projet. Le premier est constitué du grand ensemble multilingue de commentaires d'édition de Wikipedia. Le deuxième ensemble de données est un recueil de biographies orales des années 1930. Les résultats du projet de recherche comprennent trois éléments : (1) la formulation de modèles statistiques décrivant les tendances observées dans les données ; (2) un logiciel open source qui exécute les modèles sur de nouveaux corpus et en visualise le résultat ; et (3) une analyse critique montrant comment les résultats se rapportent à la formation de communautés discursives et à la construction sociale d'une expertise de domaine.
Activités / CV
BIOGRAPHIE
Taylor Arnold est professeur assistant à l’université de Richmond (Virginie, États-Unis), au sein du programme de linguistique du département de mathématiques et d'informatique. En 2013, il a reçu un doctorat en statistiques de l’université de Yale. Avant son poste actuel, il était scientifique senior au sein des laboratoires de recherche d’AT&T, à New York. Il étudie les grands ensembles de données culturelles dans le cadre de projets de recherche en sciences humaines et sociales, à la fois nouveaux et existants. Il est à ce titre spécialisé dans l’application de statistiques de calcul à de grandes collections de textes et d'images. L’étude de données comprenant ces deux éléments, comme les journaux et la télévision, est d'un intérêt particulier dans le cadre de sa recherche.
PRINCIPALES PUBLICATIONS
Monographies
- Arnold, T., Kane, M., & Lewis, B. (2019). A Computational Approach to Statistical Learning. New York, NY: Chapman & Hall/CRC Texts in Statistical Science.
- Arnold, T., and Tilton, L. (2015). Humanities Data in R: Exploring Networks, Geospatial Data, Images, and Text. New York, NY: Springer.
Articles
- Arnold, T. and Tilton, L. (2019). "Distant Viewing : Analyzing Large Visual Corpora." Digital Scholarship in the Humanities.
- Arnold, T., Berke, A., and Tilton, L. (2019), "Visual Style in Two Network Era Sitcoms." Cultural Analytics.
- Arnold, T. (2019). “Industrial Research in Applied Statistics.” Notices of the American Mathematical Society,
- Arnold, T., and Tilton, L. (2018) “Cross-Discourse and Multilingual Exploration of Text with the DualNeighbors Algorithm.” Proceedings of the 2nd Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, 50–59.
- Arnold, T., Ballier, N., Gaillat, T., and Lissón, P. (2018). “Predicting CEFRL Levels in Learner English on the Basis of Metrics and Full Texts.” Proceedings of the 20th Conférence sur L’Apprentissage Automatique, 75–82.
- Arnold, T. (2017). “Tidy Data Model for Natural Language Processing Using cleanNLP.” The R Journal, 9(2), 248–267.
- Arnold, T., Leonard, P., and Tilton, L. (2017). “Knowledge Creation Through Recommender Systems.” Digital Scholarship in the Humanities, 32.3.
- Arnold, T., Kane, M., and Urbanek, S. (2017). “iotools: High-performance Tools for R.” The R Journal, 9(1), 6–13.
- Arnold, T., Maples, S., Tilton, T., and Wexler, L. (2017). “Uncovering Latent Metadata in the FSA-OWI Photographic Archive.” Digital Humanities Quarterly, 11(2).
- Arnold, T., and Tibshirani, R. (2016). “Efficient Implementations of the Generalized Lasso Dual Path Algorithm.” Journal of Computational and Graphical Statistics, 25(1), 1–27.
LABORATOIRE PARTENAIRE
CO-FINANCEUR
IDEX LYON
AURA
LabEx ASLAN
DATES DE SEJOUR
septembre 2019 à juin 2020
MOTS-CLÉS
- visualisation de données
- humanités numériques
- traitement du langage naturel
- changement temporel