Hieroglyphic valence and frequency as typological characteristics of Chinese hieroglyphic writing
- Authors: Guruleva T.L.1, Abdrakhmanova A.R.2
-
Affiliations:
- Financial University under the Government of the Russian Federation
- Prince Alexander Nevsky Military University of the Ministry of Defense of the Russian Federation
- Issue: Vol 30, No 2 (2024)
- Pages: 142-149
- Section: Linguistics
- URL: https://journals.ssau.ru/hpp/article/view/27714
- DOI: https://doi.org/10.18287/2542-0445-2024-30-2-142-149
- ID: 27714
Cite item
Full Text
Abstract
The article is devoted to the study of such typological characteristics of Chinese writing as character valence and frequency. The aim of the study is to establish the average hieroglyphic valence of one hundred most and one hundred least frequent characters and to reveal the dependence of hieroglyphic valence on character frequency. To quantitatively characterize Chinese characters, the method of quantitative counting (solid counting method, counting method) of characters from the data of paper and electronic dictionaries was used. Using the method of automated information extraction from Chinese language corpuses, we quantitatively analyzed the character base of Chinese Internet corpus, INTERNET-ZH, and LCMC, determined the frequency of characters, and identified the hundred most and least frequent characters. The average hieroglyphic valence of one hundred most and one hundred least frequent hieroglyphs was counted by using the resources of Xinhua Online Character Dictionary and Qihai Web Portal by using the continuous counting method. In the quantitative analysis, quantitative data on initial, middle and final hieroglyphic valence were obtained, and hieroglyphs with zero hieroglyphic valence were identified. As a result, the analysis showed that the most frequent hieroglyphs have higher hieroglyphic valence than the least frequent ones (the average hieroglyphic valence of one hundred least frequent hieroglyphs is 2.23, and that of one hundred most frequent hieroglyphs is 503,32). Theoretical and practical significance is substantiated by the fact that new material on the topic under study is generalized, the concept of «hieroglyphic valence» is introduced into scientific turnover, the difference between morphemic and hieroglyphic valence in Chinese is described.
Full Text
Введение
Наряду с языками Юго-Восточной Азии (вьетнамский, лаосский, бирманский и др.) китайский язык относится к языкам слогового типа, в которых базовой фонологической единицей является слог и границы слога совпадают с границами морфемы [Гурулева, Абдрахманова 2022] (БРЭ 2015). По языковым элементам, обозначаемым письменным знаком, китайское письмо относят к морфосиллабическому (или морфослоговому) письму (Абдрахманова 2023). Слогоморфемный комплекс на письме записывается иероглифом, не передающим произношение (чтение) слога, а отражающим значение морфемы [Гурулева 2023].
Как отмечает Сю Цайхуа (徐彩华), специфика хранения иероглифики в памяти носителя языка заключается в том, что в китайском языке единицами, в которых содержится вся информация, являются иероглифы, а не слова или отдельные графические элементы. Большое количество иероглифических знаков препятствует качественному усвоению китайского иероглифического письма, поэтому необходимо составлять актуальные списки иероглифов, требующие усвоения в первую очередь (например, список наиболее частотных иероглифов и наиболее валентных иероглифов) [Сю Цайхуа 2010].
Для китайского иероглифического письма характерна способность иероглифов сочетаться между собой в процессе письменной фиксации морфем и односложных слов, участвующих в создании многосложных слов и устойчивых выражений. Данное явление мы назвали иероглифическая валентность и выделили начальную, серединную и конечную иероглифическую валентность [Вдовиченко 2017].
Сочетательная способность иероглифов требует системного описания для более глубокого изучения типологических характеристик системы китайского иероглифического письма и китайского языка в целом. В статье представлена разница понятий «морфемная валентность» и «иероглифическая валентность», приведены результаты по выявлению ста наименее и наиболее частотных китайских иероглифов и иероглифов с наименьшей и наибольшей иероглифической валентностью, установлена зависимость иероглифической валентности от частотности иероглифов и произведен подсчет средней иероглифической валентности ста наиболее и ста наименее частотных иероглифов. Проведенное исследование помогает раскрыть такие типологические характеристики китайского иероглифического письма, как способность графических знаков (иероглифов) устанавливать между собой валентные связи в процессе образования многосложных лексических единиц (иероглифическая валентность) и свойство графических знаков иероглифической системы письма иметь определенную частотность употребления.
Установление ста наименее и ста наиболее частотных иероглифов
В 1995 г. Комитет по реформе китайской письменности опубликовал список из 3000 иероглифов, расположив их по частоте употребления. Самые распространенные иероглифы этого списка (от более распространенного к менее): 的、一、是、在、不、了、有、和、人、这、中、大、为、上、个、国、我、以、要、他 [张静贤,梁彦民,赵雷 2004]. В ходе исследования Государственным университетом Миддл Теннесси также было установлено, что самый распространенный иероглиф – это иероглиф «дэ» 的 (de), он встречается в текстах 7,9 млн раз и составляет 4,09 % от общего числа иероглифов (из 193,5 млн).
Для выявления наиболее частотного иероглифа в современном китайском языке мы провели количественный анализ и определили частотность иероглифов на основе корпусов Chinese Internet corpus (объем корпуса: 280 000 000 токенов), INTERNET–ZH (объем корпуса: 281 660 631 токен), LCMC (объем корпуса: 1 001 826 токенов) (Абдрахманова 2023). Результаты анализа представлены в таблице 1.
Из данных таблицы 1 следует, что, несмотря на изменение частотности иероглифов из списка наиболее употребительных иероглифов 1986 г., в настоящее время самым распространенным иероглифом по-прежнему остается иероглиф 的 de.
Наиболее репрезентативные данные по наименьшей частотности иероглифов представлены в корпусе Chinese Internet corpus. Представим чтение и значения этих иероглифов в таблице 2.
В корпусе Chinese Internet corpus насчитывается всего 7 иероглифов со средней наименьшей частотностью на миллион иероглифических знаков 0,01. Средняя частотность на миллион иероглифических знаков «0,01» означает, что иероглиф встречается в среднем 0,01 раза на каждый миллион символов или один раз на каждые 100 миллионов иероглифических знаков.
Соотношение морфемной и иероглифической валентности
В процессе исследования структурно-категориальных аспектов китайских иероглифов мы разработали понятие «иероглифическая валентность». Под валентностью в языкознании понимается «способность слова вступать в синтаксические связи с другими элементами» (Лингвистический энциклопедический словарь, с. 79). Однако в настоящее время понятие валентность расширилось до обозначения «общей сочетательной способности слов (Канцельсон) и единиц иных уровней» [Кацнельсон 1987]. Поскольку сложное слово (состоящее из двух корневых морфем) в китайском языке строится по законам внутреннего синтаксиса (выделяются несколько внутрисинтаксических моделей: копулятивная, атрибутивная, глагольно-объектная и др.), то возможно говорить о сочетательной способности отдельной морфемы с другими в процессе образования сложного слова. О такой способности можно говорить и в отношении производных слов, сложнопроизводных слов в аспекте сочетательной способности словообразовательных морфем. Способность морфемы сочетаться с другими морфемами в слове назовем морфемной валентностью. Мы знаем, что абсолютное большинство морфем китайского языка многозначны, кроме того, в китайском языке развита и морфемная омонимия. В каждом акте создания слова морфема использует только одно свое значение, равно как и слово выступает только в одном своем значении в конкретном высказывании. Однако многозначные и омонимичные морфемы записываются одними и теми же иероглифами, потому иероглифическая валентность будет шире морфемной валентности. Под иероглифической валентностью мы будем понимать способность иероглифов сочетаться между собой в процессе письменной фиксации морфем, участвующих в создании многосложных слов, и в процессе письменной фиксации односложных слов, участвующих в создании устойчивых выражений (в китайском языке слова и выражения называются общим термином 词语, что означает слова [词] и выражения [短语]). Например, морфема 圆 yuán является многозначной. Она означает: 1) круглый, округлый, полный, круговой, 2) полный, достаточный, удовлетворительный, исчерпывающий, совершенный и другие значения. В каждом из этих значений морфема 圆 образует сложные слова: 1) 圆月 («полная луна»); 2) 圆理 («достаточное основание»). Соответственно, указанная морфема в первом значении будет иметь одну валентность, а во втором значении – другую. Но иероглифическая валентность знака 圆 будет объединять все указанные морфемные валентности, а значит, будет больше.
Подсчет иероглифической валентности
Поскольку иероглиф может находиться как в начале, так и в середине, в конце лексической единицы (词语), то введем понятия «начальная иероглифическая валентность», «серединная иероглифическая валентность», «конечная иероглифическая валентность».
Рассчитаем иероглифическую валентность для первых ста самых частотных иероглифов китайского языка, пользуясь ресурсами «Онлайн-словаря иероглифов Синьхуа» и веб-порталом «Цыхай». «Онлайн-словарь Синьхуа» (在线新华字典) предоставляет возможность подсчета начальной (以字开头的词语) и конечной валентности (以字结尾的词语) иероглифа (рис. 1).
Из таблицы 3 видно, что наибольшая общая иероглифическая валентность наблюдается не у самого частотного иероглифа 的 (№ 1, ОИВ = 279) (главное значение иероглифа: служебное слово), а у иероглифов 人 «человек» (№ 6, ОИВ = 1000)、生 «рождаться» (№ 37, ОИВ = 1000)、心 «сердце» (№ 53, ОИВ = 1000) 、天 «небо» (№ 55, ОИВ = 1000)、发 «отправлять» (№ 66, ОИВ = 1000)、文 «письменность» (№ 74, ОИВ = 1000)、行 «идти / годиться / дело» (№ 81, ОИВ = 1000) 、下 «низ» (№ 35, ОИВ = 978) 、国 «государство» (№ 16, ОИВ = 972) 、地 «земля» ( № 81, ОИВ = 964).
Наименьшая общая иероглифическая валентность (ОИВ = 1) из ста наименее частотных иероглифов наблюдается у иероглифов: 鳆 «галиотис» (морское ушко) 、铴 «малый гонг» 、铕 «хим. европий (Eu)» 、巛 (устар. вм. 川 «река, поток») 、菝 «сассапариль китайская» 、怊 «грустить» 、锪 «техн. зенковать» 、颥 «только в сочетании висок» 、坶 (только в сочетании «ист. Муе» (место сражения чжоуского У-вана с иньскими войсками в 1122 г. до н.э.) 、铘 «хим. афиний» 、檑 «бревна, сбрасываемые на неприятеля со стен города» 、 岍 qiān «Цянь-шань (горы в пров. Шэньси)» 、膪 chuài «откармливать (напр. свиней)» 、佧 «народность Кава» (только в сочетании 佧佤)、墚 «узкий холм желтой земли на северо-западе Китая» 、葜 «сассапариль, смилакс» 、炻 «толстостенный фарфор» 、镤 «хим. протактиний» 、痃 «мед. бубон» 、塥 «диал. пустыня» 、鼢 «крот» 、艚 «морская джонка» 、弪 «радиан» 、鲺 «зоол. карпоед, карповая вошь» 、軎 «наконечник оси колесницы» 、轷 «собств. Ху»、耵 (только в сочетании 耵聍) «ушная сера».
Нулевая иероглифическая валентность выявлена у следующих иероглифов: 漤 «законсервировать; замочить вяжущую хурму в горячей воде или известковой воде на несколько дней» 、苊 «аценафтен» 、舯 «мор. мидель; среднее сечение (судна)» 、禚 «ист., геогр. Чжо (местность в царстве Ци; эпоха Чуньцю)» 、鹱 «буревестник» 、毪 «шерстяная ткань, сделанная в Тибете» 、脒 «амидин» 、耠 «с.–х. обрабатывать культиватором» 、脶«дактилоскопический узор» 、筻 «бамбуковые побеги» 、碥 «стремнина» 、蒎 «хим. пинен» 、鳓 «илиша (рыба)» 、铽 «хим. тербий» 、猸 «урва» 、耖 «орудие, похожее на борону, для измельчения почвы» 、镄 «хим. фермий» 、鲴 «подуст-чернобрюшка» 、鲼 «орляк (скат)» 、茚 «хим. инден» 、钷 «хим. прометий» 、莰 «хим. камфан» 、劐 «уст. лемех (плуга)» 、镥 «хим. лютеций» 、苠 «культуры с более длительным периодом роста и более поздним периодом сбора урожая» 、舭 «мор. днище судна» 、耢 «с.-х. волокуша, шлейф (из прутьев)» 、荮 «связывать (обвязывать) соломой» 、脎 «хим. озазон» 、蒈 «хим. каран, бициклический терпен» 、腙 «гидразон».
Сравним полученные результаты с данными веб-портала «Цыхай».
Веб-портал «Цыхай» (辞海) предоставляет возможность подсчитать начальную (字在开头能组哪些词), серединную (字在中间能组哪些词) и конечную валентности (字在结尾能组词有哪些) иероглифа (рис. 2).
С помощью ресурса «Цыхай» было установлено, что наибольшая иероглифическая валентность у иероглифа «один» (№ 2, ОИВ = 308).
Проанализировав результаты двух электронных ресурсов, мы пришли к выводу, что зависимости иероглифической валентности от частотности употребления иероглифа не наблюдается. Кроме того, данные разных ресурсов об иероглифической валентности знаков разнятся. Наиболее полные данные об иероглифической валентности (начальная, серединная, конечная иероглифическая валентность) представлены на ресурсе Онлайн-словарь «Цыхай» (辞海), но «Онлайн-словарь иероглифов Синьхуа» (在线新华字典) включает больше лексических единиц, поэтому считаем данные электронного ресурса более репрезентативными.
Для установления зависимости иероглифической валентности от частотности иероглифа мы произвели подсчет средней иероглифической валентности ста наиболее и наименее частотных иероглифов (Абдрахманова 2023). Пример подсчета представим в таблице 5.
Проанализировав данные таблицы 5, мы пришли к выводу, что средняя иероглифическая валентность ста наименее частотных иероглифов составила 2,23, ста наиболее частотных иероглифов – 503,32 (Абдрахманова 2023).
Заключение
Самый распространенный иероглиф – это иероглиф 的 de (служебное слово). По данным корпуса Chinese Internet corpus, к наименее частотным иероглифам относятся иероглифы 稆 lǚ «дикорастущий» (о растениях, преимущественно злаковых), 耢 lào «с.–х. волокуша», 荮 zhòu «обвязывать соломой», 脎 sà «озазон», 蒈 kāi «бициклический терпен», 氕 piē «протий», 腙 zōng «гидразон».
Иероглифическая валентность – это способность иероглифов сочетаться между собой в процессе письменной фиксации морфем и односложных слов, участвующих в создании многосложных слов и устойчивых выражений. Иероглифическая валентность бывает начальной, серединной и конечной. Иероглифическая валентность шире морфемной валентности (способность морфемы сочетаться с другими морфемами).
Иероглифы с наибольшей иероглифической валентностью из ста наиболее частотных иероглифов: 人 «человек» (ОИВ = 1000)、生 «рождаться» (ОИВ = 1000)、心 «сердце» (ОИВ = 1000) и др., а с наименьшей иероглифической валентностью из ста наименее частотных иероглифов (ОИВ = 1): 鳆 «галиотис» (морское ушко) 、铴 «малый гонг» 、菝 «сассапариль китайская» и др. Иероглифы с нулевой иероглифической валентностью (ОИВ = 0): 漤 «законсервировать, замочить вяжущую хурму в горячей воде или известковой воде на несколько дней» 、苊 «аценафтен» 、舯 «мидель; среднее сечение (судна)» и др.
Прямо пропорциональная зависимость иероглифической валентности от частотности употребления иероглифа не установлена. Однако некоторая закономерность существует – у наиболее частотных иероглифов иероглифическая валентность выше, чем у наименее частотных иероглифов.
About the authors
T. L. Guruleva
Financial University under the Government of the Russian Federation
Author for correspondence.
Email: gurulevatatiana@mail.ru
ORCID iD: 0000-0003-0253-0075
Doctor of Pedagogical Sciences, professor, professor of the Department of Foreign Languages and Intercultural Communication, Faculty of International Economic Relations
Russian Federation, 49/2, Leningradsky Avenue, Moscow, 125167, Russian FederationA. R. Abdrakhmanova
Prince Alexander Nevsky Military University of the Ministry of Defense of the Russian Federation
Email: yanjiu@mail.ru
ORCID iD: 0009-0002-9441-9349
Candidate of Philological Sciences, lecturer at the Department of Far Eastern Languages
Russian Federation, 14, B. Sadovaya Street, Moscow, 123001, Russian FederationReferences
- Zhang Jingxian, Liang Yanmin, Zhao Lei – Zhang Jingxian, Liang Yanmin and Zhao Lei (2004) Chinese written language. Beijing: Izd-vo Pekinskogo un-ta yazyka i kul'tury, 174 р. (In Chinese)
- Vdovichenko 2017 – Vdovichenko A.V. (2017) The Verbal Process as Reflected in Reading and Writing. St. Tichon's University Review: Series III: Philology, vol. 52, pp. 62–75. Available at: https://cyberleninka.ru/article/n/verbalnyy-protsess-v-zerkale-chteniya-i-pisma/viewer. (In Russ.)
- Guruleva, Abdrakhmanova 2022 – Guruleva T.L., Abdrakhmanova A.R. (2022) Typological characteristics of syllabic languages (based on the languages of East and Southeast Asia). Modern Pedagogical Education, no. 11, рр. 208–212. Available at: https://elibrary.ru/item.asp?id=49947724. EDN: https://elibrary.ru/osrtrq. (In Russ.)
- Guruleva 2023 – Guruleva T.L. (2023) Typological Differences between Chinese and Russian languages: Functional, Structural and Quantitative Analysis. Vestnik of Moscow State Linguistic University. Humanities, no. 7 (875), рр. 30-39. DOI: http://doi.org/10.52070/2542-2197_2023_7_875_30. (In Russ.)
- Kacznel’son 1987 – Kacznel’son S.D. (1987) To the concept of valence types. Voprosy Jazykoznanija = Topics in the Study of Language, no. 3, рр. 20–32. Available at: https://vopjaz.jes.su/s0373-658x0000619-3-1-ru-8. (In Russ.)
- Korshunov 2022 – Korshunov D.S. (2022) Distinctive Features of Association Measures Applied to Chinese Character Bigram Extraction Tasks. Vestnik NSU. Series: Linguistics and Intercultural Communication, vol. 20, no. 2, рр. 64–80. DOI: http://doi.org/10.25205/1818-7935-2022-20-2-64-80. (In Russ.)
- Xu Caihua 2010 – Xu Caihua (2010) Research on character cognition and psychology of character acquisition. Beijing, 307 p. (In Russ.)