Türkçe Kısa Metinlerde Dilsel Değişke İncelemesine Çok Boyutlu Bir Yaklaşım
Year 2025,
Volume: 36 Issue: 2, 133 - 157, 30.12.2025
Hülya Mısır
Abstract
Bu çalışmada, nötr, saldırgan ve nefret içerikli tweetlerden oluşan büyük ölçekli bir Türkçe sosyal medya derlemi kullanılarak Türkçedeki dilsel değişkeler incelenmiştir. Sözcük türleri ve dilbilgisel yapılar açısından etiketlenmiş veri setiyle, dilsel değişke türlerinin altında yatan temel boyutlar, Çok Boyutlu Analiz (MDA) kapsamında Çoklu Uyum Analizi (MCA) yöntemiyle belirlenmiştir. Kısa ve bağlamsal olarak sınırlı sosyal medya metinlerine uygunluğu sayesinde MCA’nın dilbilimsel analizlerdeki yeri açıklanmakta, Türkçe kısa metinlerde dilsel değişkeyi ortaya koymadaki avantajları uygulamalı biçimde gösterilmektedir. Analizde, FactoMineR paketi ve yaygın olarak kullanılan görselleştirme aracı ggplot2 birlikte kullanılmaktadır. Bu uygulamalı anlatım, MDA boyutlarının yorumlanması ve veri görselleştirme teknikleriyle ilişkilendirilmesi konusunda rehberlik etmektedir. Ayrıca, tarih etiketi ve konuşma kategorileriyle etiketlenmiş veriler üzerinden dilsel örüntülerdeki zamansal değişim grafikler ve ısı haritalarıyla sunulmaktadır. Bu çalışma, kısa metinlerden oluşan derlemler ve kategorik verilerle çok boyutlu dilsel analiz yapmak isteyen araştırmacılar için olduğu kadar, veri görselleştirme konusunda bilgi edinmek isteyen herkes için faydalı bir kaynak olmayı hedeflemektedir.
Ethical Statement
Bu çalışma daha önce başka bir yerde yayımlanmamıştır. Başka bir dergide değerlendirme sürecinde değildir. Çalışmanın yayınlanması tüm yazarlar ve çalışmanın yapıldığı üniversitedeki/araştırma merkezindeki sorumlu makamlar tarafından örtük ya da açık olarak onaylanmıştır. Çalışma yayımlanmak için kabul edilirse, Dilbilim Araştırmaları Dergisi’nin yazılı izni olmadan başka bir basılı ya da elektronik ortamda Türkçe ya da başka bir dilde aynı biçimde yayımlanmayacaktır. Çalışmada etik onaya ihtiyaç bulunmamaktadır.
Supporting Institution
Bu araştırma, Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK) 2219- Yurt Dışı Doktora Sonrası Araştırma Burs Programı tarafından desteklenmiştir. Bu çalışmada yer alan bulgular ve sonuçlar yalnızca yazara ait olup, TÜBİTAK’ın görüşlerini yansıtmak zorunda değildir.
References
-
Akın, A. A. (2023, 2 Ocak). zemberek-python (Sürüm 0.2.3) [Bilgisayar yazılımı]. PyPI. https://pypi.org/project/zemberek-python/
-
Balcı, H. A. (2020). Varyant, değişken ve varyasyon dilbilimi. Littera Turca Journal of Turkish Language and Literature, 6(3), 301-317. https://doi.org/10.20322/littera.740237
-
Biber, D. (1988). Variation across speech and writing. Cambridge University Press.
-
Biber, D. (1989). A typology of English texts. Linguistics, 27(3), 3–43. https://doi.org/10.1515/ling.1989.27.3.3
-
Biber, D. (1995). Dimensions of register variation: A cross-linguistic comparison. Cambridge University Press.
-
Biber, D. (2015). Genre- and register-related discourse features in contrast. M. Lefer ve S. Vogeleer (Eds), Genre- and register-related discourse features in contrast (ss. 1–20). John Benjamins Publishing Company.
-
Biber, D., & Conrad, S. (2019). Register, genre, and style. Cambridge University Press.
-
Biber, D., & Hared, M. (1994). Linguistic correlates of the transition to literacy in Somali: Language adaptation in six press registers. D. Biber ve E. Finegan (Ed.), Sociolinguistic perspectives on register (ss. 182–216). John Benjamins Publishing Company.
-
Biber, D., Davies, M., Jones, J. K., & Tracy-Ventura, N. (2006). Spoken and written register variation in Spanish: A multi-dimensional analysis. Corpora, 1(1), 1–37. https://doi.org/10.3366/cor.2006.1.1
-
Clarke, I., & Grieve, J. (2017). Dimensions of abusive language on Twitter. First Workshop on Abusive Language Online (ss. 1–10). Association for Computational Linguistics. https://aclanthology.org/W17-3000
-
Clarke, I., & Grieve, J. (2019). Stylistic variation on the Donald Trump Twitter account: A linguistic analysis of tweets posted between 2009 and 2018. PLOS ONE, 14(9), e0222062. https://doi.org/10.1371/journal.pone.0222062
-
Çöltekin, Ç., (2020). A Corpus of Turkish Offensive Language on Social Media. 12th International Conference on Language Resources and Evaluation. https://coltekin.github.io/offensive-turkish/troff.pdf
-
Erdoğan-Özturk, Y. & Işık Güler, H. (2020). Discourses of exclusion on Twitter in the Turkish Context: #ülkemdesuriyeliistemiyorum (# idontwantsyriansinmycountry). Discourse, Context & Media, 36, 100400.
-
Grieve, J. (2023). Register variation explains stylometric authorship analysis. Corpus Linguistics and Linguistic Theory, 19(1), 47-77. https://doi.org/10.1515/cllt-2022-0040
-
Halliday, M. A. K. (1978). Language as social semiotic: The social interpretation of language and meaning. Edward Arnold.
-
Husson, F., Josse, J., Le, S., & Mazet, J. (2017). FactoMineR: Multivariate exploratory data analysis and data mining (ss. 1–96). https://cran.r-project.org/web/packages/FactoMineR/FactoMineR.pdf
-
Kim, Y., & Biber, D. A. (1994). Corpus-based analysis of register variation in Korean. D. Biber ve E. Finegan (Ed.), Sociolinguistic perspectives on register (ss. 157–181). John Benjamins Publishing Company.
-
Le Roux, B., & Rouanet, H. (2010). Multiple correspondence analysis. Sage Publications. https://doi.org/10.4135/9781412993906
-
Özdüzen, Ö., Korkut, U., & Özdüzen, C. (2021). ‘Refugees are not welcome’: Digital racism, online place-making and the evolving categorization of Syrians in Turkey. New Media & Society, 23(11), 3349-3369. https://doi.org/10.1177/1461444820956341
-
Roemling, D., Winter, B., & Grieve, J. (2025). Visualizing map data for linguistics using ggplot2: A tutorial with examples from dialectology and typology. Journal of Linguistic Geography, 1-15. https://doi.org/10.1017/jlg.2024.11
-
Yüceol Özezen, M. (2021). Dilbilimsel tipoloji ve Türkçe. Türklük Bilimi Araştırmaları, 49, 117–133. https://doi.org/10.17133/tubar.696950
-
Winter, B. (2019). Statistics for linguists: An introduction using R. Routledge. https://doi.org/10.4324/9781315165547
-
Toraman, Ç, Şahinuç, F., & Yılmaz, E. (2022). Large-Scale Hate Speech Detection with Cross-Domain Transfer. Thirteenth Language Resources and Evaluation Conference (ss. 2215–2225). Marseille, France. https://aclanthology.org/2022.lrec-1.238/
A Multidimensional Approach to Linguistic Variation in Short Turkish Texts
Year 2025,
Volume: 36 Issue: 2, 133 - 157, 30.12.2025
Hülya Mısır
Abstract
This study investigates linguistic variation in Turkish using a large-scale social media corpus consisting of neutral, offensive, and hate speech tweets. Drawing on a dataset annotated for parts of speech and grammatical structures, the study identifies the main dimensions of linguistic variation through the framework of Multidimensional Analysis (MDA), using Multiple Correspondence Analysis (MCA). The paper presents the use of MCA method in Turkish, which fills a notable gap in Turkish linguistic analysis due to its suitability for short and contextually limited texts such as those found on social media. The analysis is conducted using the FactoMineR package in R, along with the widely used visualization tool ggplot2. This practical guide helps interpret the dimensions generated by MDA and demonstrates how results can be presented through different data visualization techniques. Additionally, the study presents temporal shifts in linguistic patterns using time-stamped and category-labeled data, presented through various plots and heatmaps. The article is intended as a practical resource for researchers applying MDA to short-text corpora, and for those interested in the use of data visualization in linguistic analysis.
References
-
Akın, A. A. (2023, 2 Ocak). zemberek-python (Sürüm 0.2.3) [Bilgisayar yazılımı]. PyPI. https://pypi.org/project/zemberek-python/
-
Balcı, H. A. (2020). Varyant, değişken ve varyasyon dilbilimi. Littera Turca Journal of Turkish Language and Literature, 6(3), 301-317. https://doi.org/10.20322/littera.740237
-
Biber, D. (1988). Variation across speech and writing. Cambridge University Press.
-
Biber, D. (1989). A typology of English texts. Linguistics, 27(3), 3–43. https://doi.org/10.1515/ling.1989.27.3.3
-
Biber, D. (1995). Dimensions of register variation: A cross-linguistic comparison. Cambridge University Press.
-
Biber, D. (2015). Genre- and register-related discourse features in contrast. M. Lefer ve S. Vogeleer (Eds), Genre- and register-related discourse features in contrast (ss. 1–20). John Benjamins Publishing Company.
-
Biber, D., & Conrad, S. (2019). Register, genre, and style. Cambridge University Press.
-
Biber, D., & Hared, M. (1994). Linguistic correlates of the transition to literacy in Somali: Language adaptation in six press registers. D. Biber ve E. Finegan (Ed.), Sociolinguistic perspectives on register (ss. 182–216). John Benjamins Publishing Company.
-
Biber, D., Davies, M., Jones, J. K., & Tracy-Ventura, N. (2006). Spoken and written register variation in Spanish: A multi-dimensional analysis. Corpora, 1(1), 1–37. https://doi.org/10.3366/cor.2006.1.1
-
Clarke, I., & Grieve, J. (2017). Dimensions of abusive language on Twitter. First Workshop on Abusive Language Online (ss. 1–10). Association for Computational Linguistics. https://aclanthology.org/W17-3000
-
Clarke, I., & Grieve, J. (2019). Stylistic variation on the Donald Trump Twitter account: A linguistic analysis of tweets posted between 2009 and 2018. PLOS ONE, 14(9), e0222062. https://doi.org/10.1371/journal.pone.0222062
-
Çöltekin, Ç., (2020). A Corpus of Turkish Offensive Language on Social Media. 12th International Conference on Language Resources and Evaluation. https://coltekin.github.io/offensive-turkish/troff.pdf
-
Erdoğan-Özturk, Y. & Işık Güler, H. (2020). Discourses of exclusion on Twitter in the Turkish Context: #ülkemdesuriyeliistemiyorum (# idontwantsyriansinmycountry). Discourse, Context & Media, 36, 100400.
-
Grieve, J. (2023). Register variation explains stylometric authorship analysis. Corpus Linguistics and Linguistic Theory, 19(1), 47-77. https://doi.org/10.1515/cllt-2022-0040
-
Halliday, M. A. K. (1978). Language as social semiotic: The social interpretation of language and meaning. Edward Arnold.
-
Husson, F., Josse, J., Le, S., & Mazet, J. (2017). FactoMineR: Multivariate exploratory data analysis and data mining (ss. 1–96). https://cran.r-project.org/web/packages/FactoMineR/FactoMineR.pdf
-
Kim, Y., & Biber, D. A. (1994). Corpus-based analysis of register variation in Korean. D. Biber ve E. Finegan (Ed.), Sociolinguistic perspectives on register (ss. 157–181). John Benjamins Publishing Company.
-
Le Roux, B., & Rouanet, H. (2010). Multiple correspondence analysis. Sage Publications. https://doi.org/10.4135/9781412993906
-
Özdüzen, Ö., Korkut, U., & Özdüzen, C. (2021). ‘Refugees are not welcome’: Digital racism, online place-making and the evolving categorization of Syrians in Turkey. New Media & Society, 23(11), 3349-3369. https://doi.org/10.1177/1461444820956341
-
Roemling, D., Winter, B., & Grieve, J. (2025). Visualizing map data for linguistics using ggplot2: A tutorial with examples from dialectology and typology. Journal of Linguistic Geography, 1-15. https://doi.org/10.1017/jlg.2024.11
-
Yüceol Özezen, M. (2021). Dilbilimsel tipoloji ve Türkçe. Türklük Bilimi Araştırmaları, 49, 117–133. https://doi.org/10.17133/tubar.696950
-
Winter, B. (2019). Statistics for linguists: An introduction using R. Routledge. https://doi.org/10.4324/9781315165547
-
Toraman, Ç, Şahinuç, F., & Yılmaz, E. (2022). Large-Scale Hate Speech Detection with Cross-Domain Transfer. Thirteenth Language Resources and Evaluation Conference (ss. 2215–2225). Marseille, France. https://aclanthology.org/2022.lrec-1.238/