Modern Chinese Writing System: Its Properties and Graphemic Principle

Bai Zhou (柏 舟)

Zhejiang University City College, Hangzhou, China

 

(Abstract)

 

It is a great misunderstanding that a Chinese character is regarded as the same level unit of a alphabetic letter. Because of this misunderstanding, for a long time people have this ingrained idea that Chinese writing system is the biggest repertoire writing system in the world. Also because of this misunderstanding, they came to the conclusion that the entropy in Chinese character is several times higher than that in alphabetic writing system. However, this question should be clarified now.

 

The Chinese character is precisely in its unceasing signifying and systematizing advancement. Having experienced the pictographs and the pictophonetic stage, it is developing gradually into a new writing system, which is called a “purely graphemic writing system”. Modern Chinese writing system is in the course of transforming from the pictphonetic stage into the purely graphemic stage, which we call a “post picot-phonetic stage”.

 

According to the graphemic principle, Hanzi is purely a symbolic system. In this system, Character is the top rank of the structure; in the middle level is the rank of complements which directly constitute a character; at the bottom is the rank of graphs --- the minimal units of character's construction. Grapheme is a constituent which is analysed from characters from a view of forming characters, and therefore it can be called the distinctive element in the inner structure of characters. The contrast among the graphemes is reflected by the contrast among the graphs or the complements. The graphs that exist in the same grapheme are variations of grapheme, or called "allographs". In addition, graphemes in the Chinese writing system can be classified into two types, the constituent graphemes and the non-constituent graphemes. In this system, the relationship between graphemes is revealed on the syntagmatic relation and the paradigmatic relation.

 

If we use graphemic principle to analyse the basic 3500 characters in the List of Xiandai Hanyu Changyongzi (现代汉语常用字,the most frequently used Hanzi in Modern Chinese), we can get a limited number of graphemes, that is to say, not more than 200. They are the basic graphs in current Chinese characters and their status are equivalent to the letters in phonographic writing system. Having such a set of basic graphs (or letters) of Hanzi, people needn’t acquire character in isolation one by one. They can learn a set of basic graphs first and then “spell” the character according to a set of combination rules, just like we learn phonographic writing system in European languages. This will thoroughly alter the traditional approaches of acquiring Hanzi, which will not only exert a great influence to teaching Hanzi, but will also promote the study in the areas of Hanzi indexing system, form-encoding characters for computer, and Hanzi systematization.

 

Key Words:  property of Chinese character,   signifying and systematizing advancement,   graphemic principle,  purely graphemic writing system

 

 

汉字的特性与汉字形位原理

 

 

 

中国浙江大学城市学院

 

 

1.现代汉字的特性

长久以来人们一直认为汉字是世界上最难学最难认的文字。汉字的难学难认不外乎汉字的两个特性,即汉字数量庞大并且结构复杂。

 

1.1    汉字数量庞大

首先,汉字数量庞大。全部汉字的总量究竟有多少,恐怕很难给一个准确的说法。历史上收集汉字最多的是宋代丁度等编著的韵书《集韵》,共收汉字53525个,但其中有大量的异体字。清代张玉书等编著的《康熙字典》共收47043字,其中也有众多是音义不全的字。徐中舒编著的《汉语大字典》(1990年出齐),共收54678个汉字。据说自古至今历代积累下来的汉字的总字数(包括数量众多的异体字),已经达到六万。(苏培成 199449-10

其实每个时期实际使用的汉字并没有那么多。至于现代汉字的实际使用数量,总体上是国家语言文字工作委员会和中华人民共和国新闻出版署联合发布的《现代汉语通用字表》收入的7000个通用字,其包括2500个一级常用字和1000个二级常用字。即使这7000个现代汉字,从字符的数量上来说,汉字也被称作为大字符集的文字。

 

1.2    汉字结构复杂

其次是汉字结构的复杂。现代汉字结构的复杂性,表现在两个方面。一方面是结构单位数量多,据统计,《辞海》(1979年)的11834个汉字共有末级部件648个,(苏培成 5;傅永和 1985)如果要按照传统的部首、偏旁来计算,数量可能还要多得多。第二个方面是组合方式复杂,虽然从大的类型看可以概括为上下、左右、全包围、半包围等几类,实际上每一类中又可以分出许多小的类别来。有人统计,8075个通用字就有250种结构形式。(苏培成 5杜定友 1954

 

数量庞大和结构复杂这两个特性使得汉字成为世界上最难学最难认文字。正是由于汉字的这个特性,汉字被认为是人们普及文化,掌握知识的一大障碍,从而在上个世纪初引发了要“废除汉字”的极端想法。(何九盈、胡双宝、张  19957-8

 

1.3    对汉字特性的反思

认为汉字数量庞大是因为人们把每个汉字当作与西方拼音文字的字母一样的单位来看待的结果。拼音文字一般只有几十个字母,与数千乃至数万汉字相比,数量上自然有天壤之别。然而,将汉字与拼音字母看作同等单位是对汉字的莫大误解。正是由于这一误解而得出了所谓汉字是世界上大字符集的文字。也正是由于这一误解而得出了汉字的熵比拼音文字高几倍的结论,从而不利于汉字的信息处理。(冯志伟 19841993)在现代汉字系统中,对应于拼音文字字母的单位究竟是什么?这是一个必须要得到澄清的问题。

我们认为,在对两种不同的文字系统作类型学上的比较时,首先要考虑的是这种文字的基本构成要素是什么,它有什么功能和特性,以及它以什么方式组合成字(或词)。例如,构成英语文字的基本单位是字母,它的主要功能是标音,其组合方式是按英语音位规则以线性的排列组合成音节,再由音节组合成语素和词,词是字母组合的最大单位,在书写上词与词之间有明显的分隔。由此我们可以说英语文字是以音素符号表值的文字,或简称“拼音文字”。用同样的方法来分析汉字,首先要弄清构成汉字的基本单位是什么?再来分析这些基本要素在汉字系统中起什么作用,以及它的组合方式与拼音文字有什么不同?

我们认为,汉字绝不是所谓的“大字符集的文字”。汉字是有着其自身内部结构系统的文字。早在造字之初,就有所谓“独体为文,合体为字”的说法,许慎在《说文解字·叙》中说:“仓颉之初作书,盖依类象形,故谓之文。其后形声相益,即谓之字。字者,言孳乳而浸多也。”许慎在这里极其简练地向我们解说了汉字产生和发展的轨迹。华夏先民们创造的第一批汉字就是所谓的“象形字”,这批象形字就成了后来发展起来的汉字结构系统中的基本要素,“六书”理论中的“指事”、“会意”和“形声”都是以象形字为基本造字单位而发展起来的,这一点在对甲骨文和钟鼎文研究中已经得到充分证明。汉字经过“隶变”发展到现代,传统的“六书”理论已难以适用于分析现代汉字的字形结构,于是“部件分析法”就应运而生。部件分析法把部件看作是汉字的基本构字单位,它是介于笔画和整字之间,大于或等于笔画,小于或等于整字的单位。(苏培成 63采用部件分析法,我们就能对传统上的一部分所谓“独体字”进行切分,如“鱼”字,可以分析为由“刀”“田”“一”三个部件组成。由于切分部件的方法不同,至今为止,对汉字部件的统计还没有一个统一的说法。根据中国文字改革委员会和武汉大学1985年对《辞海》(1979年版)所收11834个正体字的分析统计,共得出末级部件648个,其中成字部件327个,非成字部件321个。如果我们认同这个分析结果,那么,汉字的基本字符就是这648个部件,而不是数千个甚至几万个。汉字的几百个部件虽然在数量上要比几十个拼音字母多好多倍,但这绝不构成汉字是大字符集的结论。

所谓汉字的“熵”比拼音文字高,中文的“多余度”比英语、法语低的论点同样是值得商榷的。假设的前提也是来自把汉语中的一个汉字等于英语、法语中的一个字母的观点,认为它们属于同一等级上的语言书写单位,因此,数以千计的汉字与只有几十个字母的拼音文字在数量上形成巨大反差,根据这个基数计算出来的结果,包含在一个汉字里的熵,自然要比英语、法语的一个字母的熵高出一两倍。(苏培成 144—148;冯志伟1984)但是,如前所述,这个假设的前提首先就错了。因此,由此而得出汉字不利于信息处理的结论也是错误的。

 

2. 汉字形位原理

    我们这里提出一种新的分析汉字的方法——形位分析法。这是一种对汉字的字形结构作共时的、静态的分析的方法。形位分析法所依据的是索绪尔提出的关于文字符号的三条基本原则:

1)文字的符号是任意的;

2字母的价值就在于表示差别;

3文字的价值只是靠它们在某个由一定数目的字母构成的系统中互相对立而起作用(索绪尔 1980166)。

 

2.1 现代汉字的结构分析

 

2.1.1 现代汉字的结构单位

    形素与字素。形素(graph)是从纯视觉的角度从汉字中分析出来的最小构字单位,它相当于部件分析法中的“部件”,是汉字中最简单的笔画组合,即由两个以上笔画组成的固定结构;此外,形素也可以是除了“点”画以外的独立笔画。字素(component)是汉字的直接构字单位,它相当于传统所谓的“偏旁”和“部首”,是介于形素与字之间的单位。那些由单个形素构成的汉字,如“乙”、“人”、“土”、“火”、“月”等,形素本身就兼有字素与字的性质;那些由两或三个形素构成的汉字,如“明”、“吴”、“囚”、“亘”、“衍”等,形素就兼有字素的性质。而在那些结构复杂的汉字中,独立的形素往往不直接构成汉字,必须先由形素构成字素,再由字素构成汉字。如“胡”的直接构成单位是“古”和“月”,其中“古”又由“十”和“口”构成,这时我们称“十”、“口”为形素,称“古”为字素,而“月”则为形素兼字素的成分。同样,“胡”字本身又可以作为结构更复杂的汉字中的字素而构成“湖”、“糊”、“葫”、“蝴”、“瑚”、“鹕”、“醐”、“猢”、“煳”等字。每当在一个汉字上增加一个字符而构成一个新字时,原有的旧字即失去了它作为独立汉字的身份而降格为一个字素。字素的这一特性使它成为汉字中最不固定的,因而也是最活跃的要素。汉字结构的不断繁化和新字的不断产生多与字素的这一特性有关。

 

2.1.2 现代汉字的结构层次

    现代汉字的内部结构是一个多层次的等级系统。一个结构复杂的汉字,如“襻”字,是由多个形素按一定的规则组合而成的。在这个结构系统中,完整的字处于最高层次;直接位于字之下的是作为字素的中间层次;而形素则是这一结构中位于底层末端上的最小等级单位。这样我们就把汉字看成为一个由三个不同层次上的单位构筑起来的完整系统。它与部件分析法有明显的不同。在部件分析法中,笔画被看作是末端单位,部件是居于笔画和字之间的中间单位。形位分析法排除了将笔画作为构字单位,因为从严格的意义上讲,笔画只是形素的区别特征而不是构字单位。此外,形位分析法将字素作为形素与字之间的中间单位,与传统的偏旁部首相吻合,能够更精确地描写汉字的内部结构。

 

形位分析法

 

 

 


                

 

 


                                   

 

 


                

 

 


                

 

 


                            

 

 

2.2. 现代汉字的形位分析

 

2.2.1 形位原则

    我们把形位(grapheme)称作为汉字结构内部具有区别作用的形素,因此确定形位也就是去确定形素与形素之间在构字功能上的对立。

   1)对立原则

    如果两个不同的形素可以出现在相同的组合环境中,相互替换后,为两个不同的汉字或字素,这两个形素则为彼此对立的两个形位。例如:

 

                                           

             +    =                    +    =

                                           

 

因此,[][][][]均为彼此对立的两个形位。此外,在“左”“右”“友”中,[][][]为相互对立的形位;在“旬”“句”“勾”中,[][][]为相互对立的形位;在“囚”“因”“困”中,[][][]为相互对立的形位;在“呆”“某”“栗”中,[][][西]为相互对立的形位,以此类推。

 2)互补原则

    如果两个形素彼此都不能出现在对方所出现的组合环境里,它们之间的关系则为互补关系。处于互补关系中的形素在语境上相互排斥,无法构成对立体,因此也就不起辨义表值的作用。这时,这两个形素可归并为一个形位,或者说,它们是同一形位的不同变体。例如:

 

        未 ——         

        末 ——         

 

[][]在这里互不干扰,起区别作用的是它们各自出现的环境,而不是[][]这两个形素本身。因此[][]这一对形素处于互补的分布状态中,它们是一个形位的两个不同形式,我们用[/]来表示。

    用这样的方法对形素进行归并,我们发现一些笔画相似的形素,如[][][][][][][][][][][][],等等,都可归并为一个形位。

  3)相似原则

    运用互补原则归并形位时,形素结构的相似性也是一条重要原则,即归并在同一形位中的形素(或称形位变体allographs)在形体结构上必须是相似的或近似的。如[][]形状相似,可并为一个形位;[][]虽然也有互补关系,但其形状差别较大,因而不宜归并为一个形位。相似原则是对互补原则的一种制约。如果强调互补性而不顾相似性,那么凡是有互补关系的形素都可以并入一个形位,这样形位的数量虽然小了,但各个形位变体的数量却增多了;如果强调相似性,力求使归并在一个形位中的形素在形体结构上保持最大的相似性,这样虽然可以减少各形位中的变体数目,但却增加了形位的数目。要处理好这一对矛盾,我们可以根据不同需要采取不同的标准。比如说对于识字教学,应采取相对严格的标准,即强调它的相似性,对互补关系加以严格限制;而对用于输入电脑的汉字编码来说,应采取相对宽松的标准,尽量利用互补关系对形素加以整理和归并,而不必过分强调它的相似性,这样才有可能最大限度地将所有形素安排在国际标准键盘中。

 

2.2.2 形位的区别特征

    对汉字的形位特征作更为细致的分析与描写,有必要建立一套有效的区别性系统,将汉字中的形位对立分解并归纳为有限的若干形位特征上的对立。在汉字中正是这些相互对立的特征在起着辨义表值的作用。

    汉字形位的区别特征主要表现为笔画特征上的对立,归纳起来有这样几类:

 

  1)复笔画与单笔画的对立,例如:

       

      /鸟——[]/[]    /引——[]/[]    /么——[]/[丿]

      /札——[]/[]    /幻——[]/[]    /亿——[]/[]

 

  2)复笔画中,首先是多一笔与少一笔的对立,例如:

 

      a)多点与少点

      /狠——[]/[]    /折——[]/[]    /芩——[]/[]

      /权——[]/[]    /矶——[]/[]    /沐——[]/[]

 

      b)多横与少横

      /汁——[]/[]    /亨——[]/[]    /竞——[]/[]

 

      c)多撇与少撇

      /古——[]/[]    /杪——[]/[]    /扰——[]/[]

 

      d)多竖与少竖

      /汨——[]/[]    /仁——[]/[]    /氕——[丿]/[丿]

 

  3)笔数相同的复笔画中,由某一不同笔画造成的对立,例如:

 

      /村——[]/[]    /优——[]/[]    /麾——[]/[]

     

  4)笔画相同的复笔画,由于某一笔画位置不同而造成对立,例如:

 

      /苯——[]/[]    /吠——[]/[]    /铀——[]/[]

 

  5)笔画相同的复笔画中,又有笔画粘链与交叠的对立,例如:

 

      /右——[]/[]    /肚——[]/[]    /叻——[]/[]

 

2.2.3 素形位与非素形位

    以上分析的都是形素本身所表现出来的特征。其实在汉字形体结构中真正起辨义表值作用的,除了形素本身的特征外,还有形素与形素之间在组合关系上表现出来的特征,我们称之为“非素形位”(non-constituent graphemes)

    形素之间的组合特征主要表现为形素在组合部位及序列上的对立,归纳起来一般有这样几种:

 

  1)左右对立

 

      /      /      /      /

 

  2)上下对立

 

      /      /      /      /      /      /

 

  3)偏正对立

 

      /      /      /      /      /      /

      /      /      /      /      /      /

      /      /      /      /      /      /

      /      /      /旮旯

 

  4)内外对立

 

      /      /      /      /      /      /

      /      /      /杏呆

 

2.2.4 形位结构

在汉字中,形位与形位之间的关系表现在两个方面:形位的组合关系和聚合关系。所谓组合关系是指某一形素与其它形素在空间上的排列组合。比如“呆”这个字是以形素[]与形素[]以上下结构排列组合而成的。另一方面,在组合关系之外,各个形素又分别与某些形素构成某种心理上的联想关系。比如我们之所以能识别“呆”这个字,是因为呆不同于象“吊”或“杀”这样的字(见下图)。

 

                                 (巾)―――

          ―――()                     

                                  ()―――

          ―――()

 

(实线表示组合关系,虚线表示聚合关系。)在“呆”与“吊”之间,形素[][]起着辨义表值的作用,而在“呆”与“杀”之间,起区别作用的是[][]这两个形素,这种关系被称为聚合关系。汉字中形位的分布就是在这两种不同的范围内展开的。要确定某一形位的组合能力,我们就必须查明这个形素在汉字中可能构成的所有组合;同样,要确定某一形位的聚合关系,就必须查明与这个形素可能出现在相同组合环境中的所有其它形素。现在来看看在汉字中组字频率最高的形素[]在现代常用汉字(3500)字中的分布情况。

 

(1)    []在现代常用汉字中的基本组合:

1)    []在上部

                               

2)    []在下部

                                告 吾                                    沿     

3)    []在中部

 

4)    []重叠

  

5)    []在右部

       

6)    []在左部

                                                                                                                                                                                                                                   

 

(2)    以“呆”字为例, 当以形素[]为下位组合环境时,与形素[]处于聚合关系中的形素或形素组合:

 

----[]      ----[]      ----[]      ----[]

----[]      ----[]      ----[]      ----[]

----[]      ----[]      ----[]      ----[]

----[]      ----[]      ----[]      ----[西]

----[]      ----[]      ----[]      ----[]

----[]      ----[]      ----[]      ----[]

----[]      ----[]     ----[]       ----[氿]

 

同样以“呆”字为例,如果以形素[]为上位组合环境,那么,前边所列出的在以形素[]为上位组合环境的基本组合中处于下位的那一部分,无论是形素还是形素组合,都处于一种以[]为上位组合环境的聚合关系中,彼此相互区别而又相互联系,每一组合的值都以其它组合为参照值而得以确定。在汉字中,字于字之间的关系就是在形位的这种组合的和聚合的交错关系中得到体现。这种纵横交错的关系网络构成了汉字形位分布的总和,或称形位结构。

 

3汉字认知的新途径

 

3.1 符号化、系统化是汉子演变的总趋势

我们可以从汉子发展的历史过程中清晰地概括出汉子演变的总趋势,这就是汉子不断符号化和系统化的发展趋势。所谓符号化是指汉子的字形特征与它所代表的概念之间渐渐失去直接联系的过程,字的符号化程度越高,它与概念意义之间的任意性关系就越强。(王凤阳 1989518-29)这一点在隶变的过程中反映十分明显,在现代汉字简化的方案中也有强烈表现。所谓系统化是指汉字结构内部成分的整齐化及其组合方式的规则化。汉字的符号化程度越高,它的系统化要求也就越高。在汉字发展的历史上,“假借”是使汉字符号化的一种手段,增添义符以构成形声字是使汉字系统化的一种手段。汉字正是在其不断符号化和系统化的进程中,经历了象形文字和形声文字阶段,渐渐发展成为一种未来的新型文字,我们把它称为“形素文字”(purely graphemic writing system)。现代汉字正处在由形声文字向形素文字转变的过程中,我们把这个阶段称为“后形声文字”(post picot-phonetic writing system)阶段。

 

3.2 形素文字的性质与特点

形素文字是以形位原理为构字理据的文字,它不同于传统的以形声原理为构字理据的汉字。形声文字是两级构字单位符号系统的文字,它的基本构字单位是作为义符和音符的偏旁和部首。形素文字在一定程度上保留了形声文字的构字理据。在形素文字中,形素是最小的构字单位,形声文字中的义符和音符被作为“字素”而保留在形素文字的结构体系中。形素文字是形声文字的继承与发展,是在形声文字之后汉字发展的更高形式。

形素文字与音素文字的区别是:在音素文字中,音素符号是构字的最小单位,其作用是直接表音,由于声音只能以时间上的先后顺序展开,因此,作为表音符号,它也只能以视觉上的线性排列来展现。相反,形素文字中的形素是不表音的,它的唯一作用是以视觉上的差异来辨义表值,因此,它的组合方式要比音素文字更为自由,可以在二维空间上来展现自己,所以,形素文字实际上是一种“拼形文字”。

作为未来汉字的形素文字将有以下特点:首先,它是由数量有限的形素所组成的符号系统,理想的形素数目应在200左右,最多不超过300。其次,系统中的符号都有确定的形状,形位变体只是个别情况,并且一个形位中一般只能有一个变体,特殊情况最多不超过两个变体。第三,形素符号笔画简单,且有较高的区分度,不会造成视觉上的混淆。第四,形素的组合方式简单合理,以左右组合与上下组合为主,以半包围组合与全包围组合为辅,尽量不出现怪异的组合方式。第五,汉字结构内部的组合层次不能过多,字素这一等级一般限制为一到两个层次,特殊情况不超过三个层次。最后,一个汉字中的形素的数目一般控制在四个左右,最多不超过六个。

 

4. 结束语

    具有以上特点的汉字是一种较为理想的文字,它将满足信息时代的需要,在中国的文化教育领域产生巨大影响。首先,它将从根本上改变人们传统的习字方法,人们不再是一个个孤立地学习汉字,而是像学习西方文字那样,先学习汉字的字母——形素,再学习一套形素组合的规则,在此基础上系统地习得汉字。 形素文字的第二个好处是它将有利于制定一个更为简便、科学的按字形来检索汉字的系统,现行的字形检索系统有许多不便之处,许多汉字或汉字结构成分无法归并到现行的201个部首中,在排序上,有的从“旁”,有的依“边”,有的循“头”,有的靠“底”,往往让人们无所适从,不知从何处入手。而根据形位原理,我们完全可以做到将形素定形、定位、定序,使汉字检索更加便捷可靠。形素文字的第三个好处是它将最终解决计算机形码中文输入上的瓶颈问题,从而使汉语跨过最后一道门槛,完全进入信息高速公路。我们期待并坚信这样的新时代一定会到来。

 

 

参考文献

 

杜定友(Du Dingyou,《方块字的怪组织》(The Strange Organization of Chinese Characters),《中国语文》(Zhongguo Yuwen),北京,中国社会科学出版社1954.12

冯志伟(Feng Zhiwei),《汉字的熵》(The Entropy of Chinese Character),《文字改革》(The Reform of Chinese Writing System),北京,语文出版社,1984.4

冯志伟(Feng Zhiwei,《再谈汉字的熵--汉字的信息量大不利于信息处理》(Another Discussion of the Entropy of Chinese Character),《文改之声》(The Voice of Chinese Writing System Reform),北京,北京市语文现代化研究会1993年第4期。

傅永和(Fu Yonghe,《汉字结构及其构成成分的分析和统计》(Analysis and Statistics of the Structure of Hanzi and Its Constitution Components),《中国语文》(Zhongguo Yuwen),北京,中国社会科学出版社1985.4

何九盈、胡双宝、张  猛(He Jiuying, Hu Shuangbao and Zhang Meng)“前言:汉字文化学简论”(A Brief Introduction to the Science of Hanzi Culture)《中国汉字文化大观》(Encyclopedia of Chinese Hanzi Culture),北京,北京大学出版社,1995.1

苏培成(Su Peicheng, 《现代汉字学纲要》(Essentials of modern sinographemics,北京,北京大学出版社,1994

索绪尔(Saussure, Ferdinand de.),1916. Cours de linguistique generale. 中译本:《普通语言学教程》,高名凯译,岑麒祥、叶蜚声校注,北京,商务印书馆,1980

王凤阳(Wang Fengyang,《汉字学》(Sinographemics,长春,吉林文史出版社,1989

许慎(Xu Shen, 《说文解字》(Shuowen Jiezi),北京,中华书局,1963