<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Macrosociolinguistics and Minority Languages</journal-id><journal-title-group><journal-title xml:lang="en">Macrosociolinguistics and Minority Languages</journal-title><trans-title-group xml:lang="ru"><trans-title>Macrosociolinguistics and Minority Languages</trans-title></trans-title-group></journal-title-group><issn publication-format="electronic">2949-5997</issn><publisher><publisher-name xml:lang="en">Peoples' Friendship University of Russia</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">50692</article-id><article-id pub-id-type="doi">10.22363/2949-5997-2025-3-2-97-116</article-id><article-id pub-id-type="edn">HARJOQ</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>The Languages of the Peoples of Russian Federation:  Digital Documentation Tools and Media Accessibility</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Языки народов Российской Федерации: цифровые  инструменты документирования и медиадоступность</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Corpus of written Tatar: structure, composition and applications</article-title><trans-title-group xml:lang="ru"><trans-title>Письменный корпус татарского языка: структура, состав и возможности использования</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><contrib-id contrib-id-type="orcid">https://orcid.org/0009-0002-3599-2065</contrib-id><contrib-id contrib-id-type="spin">8204-2172</contrib-id><name-alternatives><name xml:lang="en"><surname>Keneshbekova</surname><given-names>Shakhdar N.</given-names></name><name xml:lang="ru"><surname>Кенешбекова</surname><given-names>Шахдар Нурдиновна</given-names></name></name-alternatives><bio xml:lang="en"><p>PhD student at the Department of Social Pedagogy, Institute of Foreign Languages; Senior Lecturer at the Department of Linguistics and Intercultural Communication, Institute of Humanities</p></bio><bio xml:lang="ru"><p>аспирант кафедры социальной педагогики Института иностранных языков; старший преподаватель кафедры лингвистики и межкультурной коммуникации Гуманитарного института</p></bio><email>keneshbekova.sh@yandex.ru</email><xref ref-type="aff" rid="aff1"/><xref ref-type="aff" rid="aff2"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">RUDN University</institution></aff><aff><institution xml:lang="ru">Российский университет дружбы народов</institution></aff></aff-alternatives><aff-alternatives id="aff2"><aff><institution xml:lang="en">Russian New University</institution></aff><aff><institution xml:lang="ru">Российский новый университет</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2026-06-17" publication-format="electronic"><day>17</day><month>06</month><year>2026</year></pub-date><volume>3</volume><issue>2</issue><issue-title xml:lang="en"/><issue-title xml:lang="ru"/><fpage>97</fpage><lpage>116</lpage><history><date date-type="received" iso-8601-date="2026-06-18"><day>18</day><month>06</month><year>2026</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2025, Keneshbekova S.N.</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2025, Кенешбекова Ш.Н.</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="en">Keneshbekova S.N.</copyright-holder><copyright-holder xml:lang="ru">Кенешбекова Ш.Н.</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">http://creativecommons.org/licenses/by/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://macrosociolingusictics.ru/MML/article/view/50692">https://macrosociolingusictics.ru/MML/article/view/50692</self-uri><abstract xml:lang="en"><p>The proposed study is analytical in nature and is devoted to examining and describing the structure, composition, and functional capabilities of the Written Corpus of the Tatar language, which represents one of the largest digital resources for the Turkic languages of the Russian Federation. The study discusses the stages of corpus creation and the methodology of text collection and annotation, including metadata annotation and morphological annotation using the Apertium system. Special attention is paid to applied aspects, such as the integration of the corpus into speech synthesis and speech recognition systems, the development of various linguistic services and its use in educational and research projects. The principles of eliminating duplicate texts are analyzed and prospects for further development are proposed, including the expansion of genre diversity and the introduction of international annotation standards. The material for this study comprises the corpus itself and publications describing the stages of its creation and application. The methodology is presented as a set of empirical methods and techniques, including observation, analysis, description, and testing (of the functional capabilities of the corpus, etc.), as well as the graphical method for visualizing the material under study. The study highlights the scientific and cultural significance of the Written Corpus of the Tatar Language in the context of the digitalization of the languages of the peoples of Russia, which corresponds to the objectives of the International Decade of Indigenous Languages (2022-2032), initiated by the United Nations General Assembly and coordinated by the United Nations Educational, Scientific and Cultural Organization.</p></abstract><trans-abstract xml:lang="ru"><p>Исследование носит аналитический характер и посвящено изучению и описанию структуры, состава и функциональных возможностей Письменного корпуса татарского языка (Корпус) - одного из наиболее масштабных цифровых ресурсов для тюркских языков Российской Федерации. Рассмотрены этапы создания Корпуса, методология сбора и аннотирования текстов, включая метаразметку и морфологическую разметку с использованием системы Apertium . Особое внимание уделено прикладным аспектам: интеграции Корпуса в системы синтеза и распознавания речи, разработке различных лингвистических сервисов, а также его применению в образовательных и научных проектах. Проанализированы принципы устранения дублирующихся текстов и предложены перспективы дальнейшего развития, включая расширение жанрового разнообразия и внедрение международных стандартов аннотирования. Материалом исследования послужили сам Корпус и публикации, описывающие этапы его создания и применения. Методология представлена комплексом эмпирических методов и приемов, как наблюдение, анализ, описание, тестирование (функциональных возможностей корпуса и др.), а также графический метод для визуализации изучаемого материала. Отмечена научная и культурная значимость Письменного корпуса татарского языка в контексте цифровизации языков народов России, что соответствует задачам Международного десятилетия языков коренных народов (2022-2032), инициированного Генеральной Ассамблей ООН и координируемого Организацией Объединенных Наций по вопросам образования, науки и культуры.</p></trans-abstract><kwd-group xml:lang="en"><kwd>corpus linguistics</kwd><kwd>languages of Russian Federation</kwd><kwd>Tatar language</kwd><kwd>cyberethnography</kwd><kwd>digital humanities</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>корпусная лингвистика</kwd><kwd>языки народов России</kwd><kwd>киберэтнография</kwd><kwd>цифровая гуманитаристика</kwd></kwd-group><funding-group/></article-meta><fn-group/></front><body></body><back><ref-list><ref id="B1"><label>1.</label><citation-alternatives><mixed-citation xml:lang="en">Alyunina, Yu.М. (2025). Tsifrovye tekhnologii v perevode [Digital technologies in translation]. Lan’ Publ. (In Russ.).</mixed-citation><mixed-citation xml:lang="ru">Алюнина Ю.М. Цифровые технологии в переводе. СПб. : Лань, 2025. 144 с.</mixed-citation></citation-alternatives></ref><ref id="B2"><label>2.</label><citation-alternatives><mixed-citation xml:lang="en">Belorussova, S. Yu. (2021). Сyberethnography: Methodology and technology. Etnografia, (3), 123–145. (In Russ.). https://doi.org/10.31250/2618-8600-2021-3(13)-123-145 EDN: DXBUUJ</mixed-citation><mixed-citation xml:lang="ru">Белоруссова С.Ю. Киберэтнография: методология и технология // Этнография. 2021. № 3 (13). С. 123–145. https://doi.org/10.31250/2618-8600-2021-3(13)-123-145 EDN: DXBUUJ</mixed-citation></citation-alternatives></ref><ref id="B3"><label>3.</label><citation-alternatives><mixed-citation xml:lang="en">Bogoroditsky, V.A., Dmitriev, N., ed. (1953). Vvedenie v tatarskoe yazykoznanie v svyazi s drugimi tyurkskimi yazykami [Introduction to Tatar Linguistics in Relation to Other Turkic Languages]. Kazan: Tatgosizdat publ. (In Russ.).</mixed-citation><mixed-citation xml:lang="ru">Богородицкий В.А. Введение в татарское языкознание в связи с другими тюркскими языками / под ред. Н.К. Дмитриева. Казань : Татгосиздат, 1953. 220 с.</mixed-citation></citation-alternatives></ref><ref id="B4"><label>4.</label><citation-alternatives><mixed-citation xml:lang="en">Galieva, A., Vavilova, Z., &amp; Gafarova, V. (2017). Developing Tatar corpus-­based dictionaries for educational purposes. INTED2017 Proceedings, 9014–9022. https://doi.org/10.21125/inted.2017.2131</mixed-citation><mixed-citation xml:lang="ru">Гатиатуллин А.Р., Мухамедшин Д.Р., Прокопьев Н.А., Сулейманов Д.Ш. Электронный корпус татарского языка на базе модели лингвистических графов знаний // Онтология проектирования. 2024. Т. 14. № 4 (54). С. 542–554. https://doi.org/10.18287/2223-9537-2024-14-4-542-554 EDN: FXVFET</mixed-citation></citation-alternatives></ref><ref id="B5"><label>5.</label><citation-alternatives><mixed-citation xml:lang="en">Gatiatullin, A.R., Mukhamedshin, D.R., Prokopyev, N.A., &amp; Suleymanov, D. Sh. (2024). Electronic corpus of the Tatar language based on the model of linguistic knowledge graphs. Ontology of Designing, 14(4), 542–554. (In Russ.). https://doi.org/10.18287/2223-9537-2024-14-4-542-554 EDN: FXVFET</mixed-citation><mixed-citation xml:lang="ru">Ибрагимов Т.И., Сайхунов М.Р. Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России : материалы XIV Всеросс. науч. конф., Уфа, 20–22 ноября 2014 г. / отв. ред. Ф.Г. Хисамитдинова. Уфа : Институт истории, языка и литературы Уфимского научного центра РАН, 2014. С. 261–264. EDN: TIEBGB</mixed-citation></citation-alternatives></ref><ref id="B6"><label>6.</label><citation-alternatives><mixed-citation xml:lang="en">Ibragimov, T.I., &amp; Saikhunov, M.R. (2014). The written corpus of the Tatar language: Structural and functional characteristics. In F.G. Khisamitdinova (ed.). Proceedings of the 14th All-­Russian scientific conference «Current issues in the dialectology of the languages of the peoples of Russia», 261–264. Ufa: Federal State Budgetary Institution of Science, Institute of History, Language and Literature, Ufa Scientific Center of the Russian Academy of Sciences. (In Russ.). EDN: TIEBGB</mixed-citation><mixed-citation xml:lang="ru">Ибрагимов Т.И., Сайхунов М.Р. Языковое состояние этнической общности на материале Письменного корпуса татарского языка // Tatarica. 2015. № 1 (4). С. 22–27. EDN: UNYXIL</mixed-citation></citation-alternatives></ref><ref id="B7"><label>7.</label><citation-alternatives><mixed-citation xml:lang="en">Ibragimov, T.I., &amp; Saikhunov, M.R. (2015). The language status of an ethnic community (on the material of the Tatar language written corpus). Tatarica, (1), 22–27. (In Russ.). EDN: UNYXIL</mixed-citation><mixed-citation xml:lang="ru">Ибраһимов Т.И., Сәйхунов М.Р. Хәзерге татар сөйләм теле: сузык авазлар составы // Фәнни Татарстан. 2016. № 3. С. 35–47. EDN: XRPKMH</mixed-citation></citation-alternatives></ref><ref id="B8"><label>8.</label><citation-alternatives><mixed-citation xml:lang="en">Ibrahimov, T.I., &amp; Saykhunov, M.R. (2016). The modern Tatar spoken language: The structure of vowel sounds. Fənni Tatarstan, (3), 35–47. (In Tatar). EDN: XRPKMH</mixed-citation><mixed-citation xml:lang="ru">Ибрагимова Э.Р. К вопросу о референтном и атрибутивном употреблении наименований лица в предложениях тождества в английском и татарском языках // Филология и культура. 2020. № 4 (62). С. 36–42. https://doi.org/10.26907/2074-0239-2020-62-4-36-42 EDN: RXAZHS</mixed-citation></citation-alternatives></ref><ref id="B9"><label>9.</label><citation-alternatives><mixed-citation xml:lang="en">Ibragimova, E.R. (2020). On the reference and attributive use of personal names in English and Tatar identical utterances. Philology and Culture, (4), 36–42. (In Russ.). https://doi.org/10.26907/2074-0239-2020-62-4-36-42 EDN: RXAZHS</mixed-citation><mixed-citation xml:lang="ru">Кузнецов М.Ю. Алгоритм нахождения основы татарского глагола по его инфинитиву (орфографическо-­грамматические аспекты) // Многоязычие в образовательном пространстве. 2023. Т. 15. № 2 (17). С. 192–202. https://doi.org/10.35634/2500-0748-2023-15-2-192-202 EDN: YUGYOJ</mixed-citation></citation-alternatives></ref><ref id="B10"><label>10.</label><citation-alternatives><mixed-citation xml:lang="en">Kuznetsov, M. Yu. (2023). Algorithm for finding the base of the Tatar verb by its infinitive (orthographic-­grammatical aspects). Russian Journal of Multilingualism and Education, 15(2), 192–202. (In Russ.). https://doi.org/10.35634/2500-0748-2023-15-2-192-202 EDN: YUGYOJ</mixed-citation><mixed-citation xml:lang="ru">Родионова А.П., Пеллинен Н.А. Корпусная лингвистика и марафон записей вепсской и карельской речи как инструмент популяризации прибалтийско-­финских языков Карелии // Macrosociolinguistics and Minority Languages. 2024. T. 2. № 2. С. 115–130. https://doi.org/10.22363/2312-797X2024-2-2-115-130 EDN: IPVMVI</mixed-citation></citation-alternatives></ref><ref id="B11"><label>11.</label><citation-alternatives><mixed-citation xml:lang="en">Luutonen, J., Moisio, A., &amp; Daher, O. (2017). Finnish Tatars and the trilingual Tatar-­Finnish dictionary. Turcic Languages, 21(2), 266–280. https://doi.org/10.13173/TL/2017/2/266</mixed-citation><mixed-citation xml:lang="ru">Сайхунов М.Р. Ритмо-темпоральные характеристики татарского языка в плане автоматического синтеза речи : автореф. дис. … канд. филол. наук. Казань, 2010. 26 с. EDN: QGVUYR</mixed-citation></citation-alternatives></ref><ref id="B12"><label>12.</label><citation-alternatives><mixed-citation xml:lang="en">Rodionova, A.P., &amp; Pellinen, N.A. (2024). The corpus linguistics and the marathon of recordings of Vepsian and Karelian speech as a tool for popularizing the Baltic-­Finnish languages of Karelia. Macrosociolinguistics and Minority Languages, 2(2), 115–130. (In Russ.). https://doi.org/10.22363/2312-797X2024-2-2-115-130 EDN: IPVMVI</mixed-citation><mixed-citation xml:lang="ru">Сайхунов М.Р., Ибрагимов Т.И., Галиуллин К.Р. Корпус татарской художественной литературы // Традиционная культура народов Поволжья : материалы IV Всеросс. науч.-практ. конф. с междунар. участием. Казань : ИХЛАС, 2018. С. 370–377. EDN: USSRQS</mixed-citation></citation-alternatives></ref><ref id="B13"><label>13.</label><citation-alternatives><mixed-citation xml:lang="en">Saikhunov, M.R. (2010). Ritmo-temporal’nye kharakteristiki tatarskogo yazyka v plane avtomaticheskogo sinteza rechi [Rhythmic and temporal characteristics of the Tatar language in the context of automatic speech synthesis] [Dissertation abstract]. Kazan: Kazan State University. (In Russ.). EDN: QGVUYR</mixed-citation><mixed-citation xml:lang="ru">Сайхунов М.Р., Хусаинов Р.Р., Ибрагимов Т.И. Система сложного морфологического поиска в Письменном корпусе татарского языка // Традиционная культура тюркских народов в изменяющемся мире : материалы I Междунар. науч. конф. Казань : Aк Буре, 2017. С. 382–385. EDN: YSRGAQ</mixed-citation></citation-alternatives></ref><ref id="B14"><label>14.</label><citation-alternatives><mixed-citation xml:lang="en">Saikhunov, M.R., Ibragimov, T.I., &amp; Galiullin, K.R. (2018). The Corpus of Tatar fiction literature. Traditional culture of the peoples of the Volga Region: Proceedings of the 4th All-­Russian scientific and practical conference with international participation, p. 370–377. Kazan: Ikhlas publ. (In Russ.). EDN: USSRQS</mixed-citation><mixed-citation xml:lang="ru">Сайхунов М.Р., Хусаинов Р.Р., Ибрагимов Т.И. Сложности при создании текстового корпуса объемом более 400 млн токенов // Финно-угорский мир в полиэтничном пространстве России: культурное наследие и новые вызовы : сб. статей по материалам VI Всеросс. науч. конф. финно-­угроведов, Ижевск, 04–07 июня 2019 г. Ижевск : Изд-во Анны Зелениной, 2019. С. 548–554. EDN: LSYZBT</mixed-citation></citation-alternatives></ref><ref id="B15"><label>15.</label><citation-alternatives><mixed-citation xml:lang="en">Saikhunov, M.R., Khusainov, R.R., &amp; Ibragimov, T.I. (2017). The system of advanced morphological search in the written corpus of the Tatar language. Traditional culture of Turkic peoples in a changing world: Proceedings of the 1st international scientific conference, p. 382–385. Kazan: Ak Bure publ. (In Russ.). EDN: YSRGAQ</mixed-citation><mixed-citation xml:lang="ru">Сайхунов М.Р., Хусаинов Р.Р., Ибрагимов Т.И. Эволюция систем поиска в Письменном корпусе татарского языка // Языковые контакты народов Поволжья и Урала : сб. статей XI Междунар. симпозиума, Чебоксары, 21–24 мая 2018 г. Чебоксары : Чувашский государственный университет им. И.Н. Ульянова, 2018. С. 314–319. EDN: XVTCWD</mixed-citation></citation-alternatives></ref><ref id="B16"><label>16.</label><citation-alternatives><mixed-citation xml:lang="en">Saikhunov, M.R., Khusainov, R.R., &amp; Ibragimov, T.I. (2018). Search systems evolution in the corpus of written Tatar language. Language contacts of the peoples of the Volga Region and the Urals: Proceedings of the 11th international symposium, p. 314–319. Chuvash State University named after N. Ulyanov. (In Russ.). EDN: XVTCWD</mixed-citation><mixed-citation xml:lang="ru">Galieva A., Vavilova Z., Gafarova V. Developing Tatar corpus-­based dictionaries for educational purposes // INTED2017 Proceedings. Valencia : INTED, 2017. P. 9014–9022. https://doi.org/10.21125/inted.2017.2131</mixed-citation></citation-alternatives></ref><ref id="B17"><label>17.</label><citation-alternatives><mixed-citation xml:lang="en">Saikhunov, M.R., Khusainov, R.R., &amp; Ibragimov, T.I. (2019). Challenges in creating a text corpus exceeding 400 million tokens. The Finno-­Ugric World in the Multiethnic Space of Russia: Cultural Heritage and New Challenges: Proceedings of the 6th All-­Russian conference on Finno-­Ugric studies, p. 548–554. Izhevsk, Anna Zelenina publ. (In Russ.). EDN: LSYZBT</mixed-citation><mixed-citation xml:lang="ru">Luutonen J., Moisio A., Daher O. Finnish Tatars and the trilingual Tatar-­Finnish dictionary // Turcic Languages. 2017. Vol. 21. № 2. P. 266–280. https://doi.org/10.13173/TL/2017/2/266</mixed-citation></citation-alternatives></ref></ref-list></back></article>
