Иероглифическая валентность и частотность как типологические характеристики китайского иероглифического письма
- Авторы: Гурулева Т.Л.1, Абдрахманова А.Р.2
-
Учреждения:
- Финансовый университет при Правительстве Российской Федерации
- Военный университет Министерства обороны Российской Федерации имени князя Александра Невского
- Выпуск: Том 30, № 2 (2024)
- Страницы: 142-149
- Раздел: Языкознание
- URL: https://journals.ssau.ru/hpp/article/view/27714
- DOI: https://doi.org/10.18287/2542-0445-2024-30-2-142-149
- ID: 27714
Цитировать
Полный текст
Аннотация
Статья посвящена исследованию таких типологических характеристик письменности китайского языка, как иероглифическая валентность и частотность. Целями исследования являются установление средней иероглифической валентности ста наиболее и ста наименее частотных иероглифов и выявление зависимости иероглифической валентности от частотности иероглифа. Теоретическая и практическая значимость обоснована тем, что обобщен новый материал по исследуемой теме, в научный оборот введено понятие «иероглифическая валентность», описана разница между морфемной и иероглифической валентностью в китайском языке. Для количественной характеристики китайских иероглифов был использован метод количественного подсчета (метод сплошного подсчета, метод счисления) иероглифов по данным бумажных и электронных словарей. С помощью метода автоматизированного извлечения информации из корпусов китайского языка проведен количественный анализ иероглифической базы корпусов Chinese Internet corpus, INTERNET–ZH, LCMC, определена частотность иероглифов и выявлены сто наиболее и наименее частотных иероглифов. Методом сплошного подсчета произведен подсчет средней иероглифической валентности ста наиболее и ста наименее частотных иероглифов с помощью ресурсов «Онлайн-словаря иероглифов Синьхуа» и веб-портала «Цыхай». В ходе квантитативного анализа были получены количественные данные по начальной, средней и конечной иероглифической валентности, выявлены иероглифы с нулевой иероглифической валентностью. В результате проведенный анализ показал, что у наиболее частотных иероглифов иероглифическая валентность выше, чем у наименее частотных (средняя иероглифическая валентность ста наименее частотных иероглифов – 2,23, а ста наиболее частотных иероглифов – 503,32).
Полный текст
Введение
Наряду с языками Юго-Восточной Азии (вьетнамский, лаосский, бирманский и др.) китайский язык относится к языкам слогового типа, в которых базовой фонологической единицей является слог и границы слога совпадают с границами морфемы [Гурулева, Абдрахманова 2022] (БРЭ 2015). По языковым элементам, обозначаемым письменным знаком, китайское письмо относят к морфосиллабическому (или морфослоговому) письму (Абдрахманова 2023). Слогоморфемный комплекс на письме записывается иероглифом, не передающим произношение (чтение) слога, а отражающим значение морфемы [Гурулева 2023].
Как отмечает Сю Цайхуа (徐彩华), специфика хранения иероглифики в памяти носителя языка заключается в том, что в китайском языке единицами, в которых содержится вся информация, являются иероглифы, а не слова или отдельные графические элементы. Большое количество иероглифических знаков препятствует качественному усвоению китайского иероглифического письма, поэтому необходимо составлять актуальные списки иероглифов, требующие усвоения в первую очередь (например, список наиболее частотных иероглифов и наиболее валентных иероглифов) [Сю Цайхуа 2010].
Для китайского иероглифического письма характерна способность иероглифов сочетаться между собой в процессе письменной фиксации морфем и односложных слов, участвующих в создании многосложных слов и устойчивых выражений. Данное явление мы назвали иероглифическая валентность и выделили начальную, серединную и конечную иероглифическую валентность [Вдовиченко 2017].
Сочетательная способность иероглифов требует системного описания для более глубокого изучения типологических характеристик системы китайского иероглифического письма и китайского языка в целом. В статье представлена разница понятий «морфемная валентность» и «иероглифическая валентность», приведены результаты по выявлению ста наименее и наиболее частотных китайских иероглифов и иероглифов с наименьшей и наибольшей иероглифической валентностью, установлена зависимость иероглифической валентности от частотности иероглифов и произведен подсчет средней иероглифической валентности ста наиболее и ста наименее частотных иероглифов. Проведенное исследование помогает раскрыть такие типологические характеристики китайского иероглифического письма, как способность графических знаков (иероглифов) устанавливать между собой валентные связи в процессе образования многосложных лексических единиц (иероглифическая валентность) и свойство графических знаков иероглифической системы письма иметь определенную частотность употребления.
Установление ста наименее и ста наиболее частотных иероглифов
В 1995 г. Комитет по реформе китайской письменности опубликовал список из 3000 иероглифов, расположив их по частоте употребления. Самые распространенные иероглифы этого списка (от более распространенного к менее): 的、一、是、在、不、了、有、和、人、这、中、大、为、上、个、国、我、以、要、他 [张静贤,梁彦民,赵雷 2004]. В ходе исследования Государственным университетом Миддл Теннесси также было установлено, что самый распространенный иероглиф – это иероглиф «дэ» 的 (de), он встречается в текстах 7,9 млн раз и составляет 4,09 % от общего числа иероглифов (из 193,5 млн).
Для выявления наиболее частотного иероглифа в современном китайском языке мы провели количественный анализ и определили частотность иероглифов на основе корпусов Chinese Internet corpus (объем корпуса: 280 000 000 токенов), INTERNET–ZH (объем корпуса: 281 660 631 токен), LCMC (объем корпуса: 1 001 826 токенов) (Абдрахманова 2023). Результаты анализа представлены в таблице 1.
Из данных таблицы 1 следует, что, несмотря на изменение частотности иероглифов из списка наиболее употребительных иероглифов 1986 г., в настоящее время самым распространенным иероглифом по-прежнему остается иероглиф 的 de.
Наиболее репрезентативные данные по наименьшей частотности иероглифов представлены в корпусе Chinese Internet corpus. Представим чтение и значения этих иероглифов в таблице 2.
В корпусе Chinese Internet corpus насчитывается всего 7 иероглифов со средней наименьшей частотностью на миллион иероглифических знаков 0,01. Средняя частотность на миллион иероглифических знаков «0,01» означает, что иероглиф встречается в среднем 0,01 раза на каждый миллион символов или один раз на каждые 100 миллионов иероглифических знаков.
Соотношение морфемной и иероглифической валентности
В процессе исследования структурно-категориальных аспектов китайских иероглифов мы разработали понятие «иероглифическая валентность». Под валентностью в языкознании понимается «способность слова вступать в синтаксические связи с другими элементами» (Лингвистический энциклопедический словарь, с. 79). Однако в настоящее время понятие валентность расширилось до обозначения «общей сочетательной способности слов (Канцельсон) и единиц иных уровней» [Кацнельсон 1987]. Поскольку сложное слово (состоящее из двух корневых морфем) в китайском языке строится по законам внутреннего синтаксиса (выделяются несколько внутрисинтаксических моделей: копулятивная, атрибутивная, глагольно-объектная и др.), то возможно говорить о сочетательной способности отдельной морфемы с другими в процессе образования сложного слова. О такой способности можно говорить и в отношении производных слов, сложнопроизводных слов в аспекте сочетательной способности словообразовательных морфем. Способность морфемы сочетаться с другими морфемами в слове назовем морфемной валентностью. Мы знаем, что абсолютное большинство морфем китайского языка многозначны, кроме того, в китайском языке развита и морфемная омонимия. В каждом акте создания слова морфема использует только одно свое значение, равно как и слово выступает только в одном своем значении в конкретном высказывании. Однако многозначные и омонимичные морфемы записываются одними и теми же иероглифами, потому иероглифическая валентность будет шире морфемной валентности. Под иероглифической валентностью мы будем понимать способность иероглифов сочетаться между собой в процессе письменной фиксации морфем, участвующих в создании многосложных слов, и в процессе письменной фиксации односложных слов, участвующих в создании устойчивых выражений (в китайском языке слова и выражения называются общим термином 词语, что означает слова [词] и выражения [短语]). Например, морфема 圆 yuán является многозначной. Она означает: 1) круглый, округлый, полный, круговой, 2) полный, достаточный, удовлетворительный, исчерпывающий, совершенный и другие значения. В каждом из этих значений морфема 圆 образует сложные слова: 1) 圆月 («полная луна»); 2) 圆理 («достаточное основание»). Соответственно, указанная морфема в первом значении будет иметь одну валентность, а во втором значении – другую. Но иероглифическая валентность знака 圆 будет объединять все указанные морфемные валентности, а значит, будет больше.
Подсчет иероглифической валентности
Поскольку иероглиф может находиться как в начале, так и в середине, в конце лексической единицы (词语), то введем понятия «начальная иероглифическая валентность», «серединная иероглифическая валентность», «конечная иероглифическая валентность».
Рассчитаем иероглифическую валентность для первых ста самых частотных иероглифов китайского языка, пользуясь ресурсами «Онлайн-словаря иероглифов Синьхуа» и веб-порталом «Цыхай». «Онлайн-словарь Синьхуа» (在线新华字典) предоставляет возможность подсчета начальной (以字开头的词语) и конечной валентности (以字结尾的词语) иероглифа (рис. 1).
Из таблицы 3 видно, что наибольшая общая иероглифическая валентность наблюдается не у самого частотного иероглифа 的 (№ 1, ОИВ = 279) (главное значение иероглифа: служебное слово), а у иероглифов 人 «человек» (№ 6, ОИВ = 1000)、生 «рождаться» (№ 37, ОИВ = 1000)、心 «сердце» (№ 53, ОИВ = 1000) 、天 «небо» (№ 55, ОИВ = 1000)、发 «отправлять» (№ 66, ОИВ = 1000)、文 «письменность» (№ 74, ОИВ = 1000)、行 «идти / годиться / дело» (№ 81, ОИВ = 1000) 、下 «низ» (№ 35, ОИВ = 978) 、国 «государство» (№ 16, ОИВ = 972) 、地 «земля» ( № 81, ОИВ = 964).
Наименьшая общая иероглифическая валентность (ОИВ = 1) из ста наименее частотных иероглифов наблюдается у иероглифов: 鳆 «галиотис» (морское ушко) 、铴 «малый гонг» 、铕 «хим. европий (Eu)» 、巛 (устар. вм. 川 «река, поток») 、菝 «сассапариль китайская» 、怊 «грустить» 、锪 «техн. зенковать» 、颥 «только в сочетании висок» 、坶 (только в сочетании «ист. Муе» (место сражения чжоуского У-вана с иньскими войсками в 1122 г. до н.э.) 、铘 «хим. афиний» 、檑 «бревна, сбрасываемые на неприятеля со стен города» 、 岍 qiān «Цянь-шань (горы в пров. Шэньси)» 、膪 chuài «откармливать (напр. свиней)» 、佧 «народность Кава» (только в сочетании 佧佤)、墚 «узкий холм желтой земли на северо-западе Китая» 、葜 «сассапариль, смилакс» 、炻 «толстостенный фарфор» 、镤 «хим. протактиний» 、痃 «мед. бубон» 、塥 «диал. пустыня» 、鼢 «крот» 、艚 «морская джонка» 、弪 «радиан» 、鲺 «зоол. карпоед, карповая вошь» 、軎 «наконечник оси колесницы» 、轷 «собств. Ху»、耵 (только в сочетании 耵聍) «ушная сера».
Нулевая иероглифическая валентность выявлена у следующих иероглифов: 漤 «законсервировать; замочить вяжущую хурму в горячей воде или известковой воде на несколько дней» 、苊 «аценафтен» 、舯 «мор. мидель; среднее сечение (судна)» 、禚 «ист., геогр. Чжо (местность в царстве Ци; эпоха Чуньцю)» 、鹱 «буревестник» 、毪 «шерстяная ткань, сделанная в Тибете» 、脒 «амидин» 、耠 «с.–х. обрабатывать культиватором» 、脶«дактилоскопический узор» 、筻 «бамбуковые побеги» 、碥 «стремнина» 、蒎 «хим. пинен» 、鳓 «илиша (рыба)» 、铽 «хим. тербий» 、猸 «урва» 、耖 «орудие, похожее на борону, для измельчения почвы» 、镄 «хим. фермий» 、鲴 «подуст-чернобрюшка» 、鲼 «орляк (скат)» 、茚 «хим. инден» 、钷 «хим. прометий» 、莰 «хим. камфан» 、劐 «уст. лемех (плуга)» 、镥 «хим. лютеций» 、苠 «культуры с более длительным периодом роста и более поздним периодом сбора урожая» 、舭 «мор. днище судна» 、耢 «с.-х. волокуша, шлейф (из прутьев)» 、荮 «связывать (обвязывать) соломой» 、脎 «хим. озазон» 、蒈 «хим. каран, бициклический терпен» 、腙 «гидразон».
Сравним полученные результаты с данными веб-портала «Цыхай».
Веб-портал «Цыхай» (辞海) предоставляет возможность подсчитать начальную (字在开头能组哪些词), серединную (字在中间能组哪些词) и конечную валентности (字在结尾能组词有哪些) иероглифа (рис. 2).
С помощью ресурса «Цыхай» было установлено, что наибольшая иероглифическая валентность у иероглифа «один» (№ 2, ОИВ = 308).
Проанализировав результаты двух электронных ресурсов, мы пришли к выводу, что зависимости иероглифической валентности от частотности употребления иероглифа не наблюдается. Кроме того, данные разных ресурсов об иероглифической валентности знаков разнятся. Наиболее полные данные об иероглифической валентности (начальная, серединная, конечная иероглифическая валентность) представлены на ресурсе Онлайн-словарь «Цыхай» (辞海), но «Онлайн-словарь иероглифов Синьхуа» (在线新华字典) включает больше лексических единиц, поэтому считаем данные электронного ресурса более репрезентативными.
Для установления зависимости иероглифической валентности от частотности иероглифа мы произвели подсчет средней иероглифической валентности ста наиболее и наименее частотных иероглифов (Абдрахманова 2023). Пример подсчета представим в таблице 5.
Проанализировав данные таблицы 5, мы пришли к выводу, что средняя иероглифическая валентность ста наименее частотных иероглифов составила 2,23, ста наиболее частотных иероглифов – 503,32 (Абдрахманова 2023).
Заключение
Самый распространенный иероглиф – это иероглиф 的 de (служебное слово). По данным корпуса Chinese Internet corpus, к наименее частотным иероглифам относятся иероглифы 稆 lǚ «дикорастущий» (о растениях, преимущественно злаковых), 耢 lào «с.–х. волокуша», 荮 zhòu «обвязывать соломой», 脎 sà «озазон», 蒈 kāi «бициклический терпен», 氕 piē «протий», 腙 zōng «гидразон».
Иероглифическая валентность – это способность иероглифов сочетаться между собой в процессе письменной фиксации морфем и односложных слов, участвующих в создании многосложных слов и устойчивых выражений. Иероглифическая валентность бывает начальной, серединной и конечной. Иероглифическая валентность шире морфемной валентности (способность морфемы сочетаться с другими морфемами).
Иероглифы с наибольшей иероглифической валентностью из ста наиболее частотных иероглифов: 人 «человек» (ОИВ = 1000)、生 «рождаться» (ОИВ = 1000)、心 «сердце» (ОИВ = 1000) и др., а с наименьшей иероглифической валентностью из ста наименее частотных иероглифов (ОИВ = 1): 鳆 «галиотис» (морское ушко) 、铴 «малый гонг» 、菝 «сассапариль китайская» и др. Иероглифы с нулевой иероглифической валентностью (ОИВ = 0): 漤 «законсервировать, замочить вяжущую хурму в горячей воде или известковой воде на несколько дней» 、苊 «аценафтен» 、舯 «мидель; среднее сечение (судна)» и др.
Прямо пропорциональная зависимость иероглифической валентности от частотности употребления иероглифа не установлена. Однако некоторая закономерность существует – у наиболее частотных иероглифов иероглифическая валентность выше, чем у наименее частотных иероглифов.
Об авторах
Т. Л. Гурулева
Финансовый университет при Правительстве Российской Федерации
Автор, ответственный за переписку.
Email: gurulevatatiana@mail.ru
ORCID iD: 0000-0003-0253-0075
доктор педагогических наук, профессор, профессор кафедры иностранных языков и межкультурной коммуникации, Факультет международных экономических отношений
Россия, 125167, Российская Федерация, г. Москва, пр-кт Ленинградский, 49/2А. Р. Абдрахманова
Военный университет Министерства обороны Российской Федерации имени князя Александра Невского
Email: yanjiu@mail.ru
ORCID iD: 0009-0002-9441-9349
кандидат филологических наук, преподаватель кафедры дальневосточных языков
Россия, 123001, Российская Федерация, г. Москва, ул. Б. Садовая, 14Список литературы
- 张静贤,梁彦民,赵雷 2004 – 张静贤,梁彦民,赵雷. 汉字教程. 北京: 北京语言大学出版社,2004. 174 页. (Чжан Цзинсянь, Лян Яньминь, Чжао Лэй. Китайская письменность. Пекин: Изд-во Пекинского ун-та языка и культуры, 2004. 174 с.)
- Вдовиченко 2017 – Вдовиченко А.В. Вербальный процесс в зеркале чтения и письма // Вестник ПСТГУ. Серия III: Филология. 2017. Вып. 52. С. 62–75. URL: https://cyberleninka.ru/article/n/verbalnyy-protsess-v-zerkale-chteniya-i-pisma/viewer.
- Гурулева, Абдрахманова 2022 – Гурулева Т.Л., Абдрахманова А.Р. Типологические характеристики слоговых языков (на материале языков Восточной и Юго-Восточной Азии) // Современное педагогическое образование. 2022. № 11. С. 208–212. URL: https://elibrary.ru/item.asp?id=49947724. EDN: https://elibrary.ru/osrtrq.
- Гурулева 2023 – Гурулева Т.Л. Типологические различия китайского и русского языков: функциональный, структурный и квантитативный анализ // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2023. Вып. 7 (875). С. 30–39. DOI: http://doi.org/10.52070/2542-2197_2023_7_875_30.
- Кацнельсон 1987 – Кацнельсон С.Д. К понятию типов валентности // Вопросы языкознания. 1987. № 3. С. 20–32. URL: https://vopjaz.jes.su/s0373-658x0000619-3-1-ru-8.
- Коршунов 2022 – Коршунов Д.С. Особенности применения статистических мер в задачах выделения китайских иероглифических биграмм // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2022. Т. 20, № 2. С. 64–80. DOI: http://doi.org/10.25205/1818-7935-2022-20-2-64-80.
- Сю Цайхуа 2010 – Сю Цайхуа. Исследования в области познания иероглифов и психологии усвоения иероглифов. Пекин, 2010. 307 c.