汉字整理四定是什么

如题所述

정리 정돈 청소 청결 습관화
整理,整顿,清扫,清洁,习惯化
此为5S
四定(定置、定位、定量、定点)
温馨提示:答案为网友推荐,仅供参考
第1个回答  2013-10-10
《汉语拼音方案》《汉语拼音证词法基本规则》《普通话异读词审音表》《中文书刊名称汉语拼音拼写法》
一、定量
1、什么是汉字定量
  定量是指规定现代汉语用字的数量,以便汉字学习和运用,便于汉字信息处理。
2、汉字定量的必要性
  因为汉字的累积数量与实用字量相差悬殊。
  在字量上加以规定,可以限制死字、废字、罕用字的复活使用,可以——
  有利于减轻汉字学习的负担;
  有利于提高汉字应用的效率;
  有利于中文信息计算机处理;
1)从静态上看,从甲骨文到现代汉字,总的字数不断增加。
公元100年《说文解字》收字9353个,另有重文1163个,总共10516字。其中“重文”就是“异体字”;
公元400年《字林》收字12824个,比《说文解字》增加2308字;
公元543年《玉篇》收字22726个,比《字林》增加9902字;
公元997年《龙龛手鉴》收字26430个,比《玉篇》增加3704字;
公元1011年《广韵》收字26194个,比《龙龛手鉴》减少236字;
公元1066年《类篇》收字31319个,比《手鉴》增加4889字;比《广韵》增加5125字;
公元1067年《集韵》收字53525个,比《类篇》增加22206字;
公元1615年《字汇》收字33169个,是一次比较大规模的整理,比《集韵》减少20356字,主要是减少了大量的异体字的结果;
公元1671年《正字通》收字33549个,比《字汇》增加380字;
公元1716年《康熙字典》收字47035个,比《正字通》增加13486字;
公元1915年《中华大字典》收字48000个,比《康熙字典》增加965字;
公元1990年《汉语大字典》收字54678个,比《中华大字典》增加6678字;
公元1994年《中华字海》收入字85000个,比《汉语大字典》增加30322字。增加的字几乎都是扩大偏旁类推简化范围而产生的不规范“简化字”。
2)从动态上看,实际使用的汉字在不同的时代基本上稳定在一定的数量上。
  一般说来,常用字3000左右、通用字6000左右,总的实用字数为1万左右。
  《十三经》是先秦儒家经典的集合。据统计,该书使用的单字共有6544个。
  可以认为先秦典籍中实际实用的汉字数大约为6000字左右。
  《史记》使用的汉字数为6000左右;
  (现代汉语用字统计表)
  《三民主义》(孙中山),总字数约16万,仅用了2134个不同的字;
  《毛泽东选集》一至四卷,总字数约66万,实际使用2891个不同的字;
《骆驼祥子》总字数10多万字,实际使用的字数为2413个。
“748工程”统计了2160万字符的书面汉语语料,语料类型涉及工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、考古等多方面的出版物,统计得出实际使用的汉字为6335个。
  北京航空航天大学主持的现代汉语词频统计工程,抽样统计了从1919年以来60年间的现代汉语语料,得到的汉字为7754字;
  山东大学抽样统计1982-1991年10年间当代汉语流通语料,得到5210字,其中有5092个集内字和118个集外字。
  新华通讯社统计了1986年全年的新闻稿件,总字符约为4000万个,得到汉字数为6001个汉字。其中有5748个集内字和253个集外字。
  从古今汉字的实用情况看,动态系统中汉字的实用字量大约在6000个左右。这个数字一直是比较稳定的。
3、汉字定量的原则
1)根据汉字的使用频率,选取使用频率高的字;
2500常用字在抽样语料中的覆盖率达97.97%;
1000次常用字在抽样语料中的覆盖率达 1.51%,
  合计(3500字)覆盖率达99.48%。
  也就是说,认识2500个高频汉字,阅读现代汉语文本时,生字的出现率只有2.03%。
  认识3500个高频汉字,阅读现代汉语文本时,生字的出现率只有0.52%。
2)在使[FS:PAGE]用频率相同的情况下,选取学科分布广、使用度高的字;
3)根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字;
4)根据汉字的实际使用功能斟酌取舍。有些在书面语中很少使用的字,统计频率往往很低,但在日常生活中却很常用,也应适当选取。
5)选取专业分布均匀的字,避免选字的片面性。
4、汉字定量的主要成果
  主要是两个字表:
   《现代汉语常用字表》
   《现代汉语通用字表》
  常用字是社会普及教育和书面汉语应用中经常使用的汉字,是国民素质教育的基础。
  国家语言文字工作委员会汉字处从1986年6月开始研制《现代汉语常用字表》。
1987年7月国家语委邀请各方面专家进行论证;
1988年1月制订出《现代汉语常用字表》。
  通用字是社会成员普遍通用的汉字,不包括专业性偏僻字和一般人少用的罕用字。
  例如,中文“三古”(古代汉语、古代文学、古籍整理)处理古籍文献所遇到的古字,就不属于现代汉语通用字范围。
  通用字是为了满足现代汉语书面语的需要,解决3500常用字之外剩余的0.52%覆盖率的汉字需求问题。
  通用字表共收汉字7000个。其中除了3500常用字之外,根据实际需要,主要以《印刷通用汉字字形表》为基础,删除其中不常用的50字,增加854字。
5、汉字定量研究需解决的问题
  主要包括:
      姓名用字、
      地名用字、
      方言字、
      科技专业用字、
      翻译用字等
  其中有许多生僻字或新造字。按照汉字定量的要求,都有必要制定字表,加以适当的限制。
6、汉字定量的主要参考文献
1)语体文应用字汇(4261字) 1928年6月陈鹤琴
2)常用字选(2000字) 1946年8月四川省教育科学院
3)常用汉字登记表(1017字)1950年9月中央人民政府教育部社会教育司
4)常用字表(2000字) 1952年6月中央人民政府教育部公布
5)识字正音3500字表(3559字) 1954年7月中国大辞典编纂处
6)普通话常用字表(3000字) 1958年8月山东省教育厅
7)常用字表(3100字) 1965年8月北京市教育局中小学教材编审处
8)4500字表(4444字) 1975年中国文字改革委员会汉字组
9)汉字频度表(6376字) 1976年12月七四八工程查频组
10)现代汉语词典 1978年8月中国社会科学院语言研究所
11)增订2500字表 1979年7月中国文字改革委员会汉字组
12)新华字典 1979年商务印书馆
13)信息交换用汉字编码字符集·基本集(6763字) 1981年5月国家标准局发布
14)标准电码本(7292字) 1983年邮电部
15)六年制小学语文统编教材生字表(3189字) 1984年人民教育出版社
16)常用构词字典(3994字) 1984年3月中国人民大学语言文字研究所
17)社会科学自然科学综合汉字频度表(7754字)
1985年3月北航计算机系中国文字改革委员会汉字处
18)汉字频率表(4574字) 1985年7月北京语言学院语言教学研究所
19)1986年度新闻信息流通频度(6001字) 1987年1月新华社技术研究所

  二、定形
1、什么是汉字定形
  定形是指规定现代汉语用字的标准字形。
  凡是通用汉字,一个字只能有一种确定的字形,不能有多种字形。
  特别是中文信息处理技术更需要确定统一的字形标准。
2、汉字定形的必要性
1) 汉字异体繁多,需要整理;
2)异形词的存在影响顺利交际;
3)新旧字形需要统一;
4)电脑用汉字字形需要标准化;
3、汉字定形的任务
1)淘汰异体[FS:PAGE]字
2)整理异形词
3)统一新旧字形
4)规定字形点阵标准
4、汉字定形的方针和原则
  方针
  整理异形词的方针可以理解为汉字定形的方针,这就是:
  积极稳妥、循序渐进、区别对待、分别整理。
  汉字定形工作涉及面广,不能操之过急,应当积极稳妥地进行。
  关于现代汉语中的异形词的整理规范工作,就采取了这样的方针。
1977年国家文字改革委员会就曾经发布《词语整理表》(征求意见稿)。
2001年12月国家语言文字工作委员会公布《第一批异形词整理表》。
2002年3月31日开始试行。
  原则
  同样道理,整理异形词的原则可以理解为汉字定形的原则。具体地说,就是:
1)通用性原则
  选择通用性强、使用频度高的词语为推荐词形。
  通用性原则符合语言的约定俗成规律。如以“毕恭毕敬”为推荐词形,废止“必恭必敬”。
2)理据性原则
  从词语发展的理据性选择推荐较为合理的词形。例如:
“戒”与“诫”本属于同源字。
“戒”古代有“劝诫”、“告诫”和“戒备”“警戒”的意义。随着语言文字的发展,又创造了“诫”专门表示“规劝”“劝诫”义,而让“戒”专门表示“警戒”“戒备”义。形义分化分工的结果,造成了异形词。
  因此,从理据性出发,推荐“规诫”,废止“规戒”。
3)系统性原则
  系统性主要指层级性、递归性和词汇结构系统的类推性。
  词汇系统内部有较强的结构层级,同一个结构成分具有明显的递归性和可类推性。这主要表现在相同的语素系列在构词时用字的一致性。如:
“靡—糜”在“奢靡——奢糜”、“侈靡——侈糜”两组异形词中,单根据使用频率,难以决定取舍。
  根据同系列的异形词“靡费——糜费”加以推断,发现“靡费”比“糜费”占有明显的优势。因此,整个系列都确定以含“靡”的词形为规范词形加以推荐。
5、汉字定形的主要成果
1)《第一批异体字整理表》;
《第二批异体字整理表》;
2)《印刷通用汉字字形表》;
3)《第一批异形词整理表》(2002年3月31日试行)
  该表选取了普通话书面语中经常使用、公众的取舍倾向比较明显的338组(不含附录中的44组)异形词(包括词和固定短语),作为第一批进行整理,给出了每组异形词的推荐使用词形。
4)汉字点阵字形库国家标准
  (1)显示用汉字点阵字形库国家标准
  《GB5199.1-85信息交换用汉字15×16点阵字模集》,本标准所采用的是宋体。
  (2)打印用汉字点阵字形库国家标准
  普及型打印用点阵汉字字形库为24×24点阵级别。
  提高型打印用点阵汉字字形库为32×32点阵级别和48×48点阵级别。
  高精度打印用点阵汉字字形库为64×64以上点阵级别。
  (3)常用字体64×64点阵国家标准
  《GB/T14245-93信息交换用汉字64×64点阵宋体字模集及数据集》(1993. 国家标准总局)
  《GB/T14244-93信息交换用汉字64×64点阵仿宋体字模集及数据集》(1993. 国家技术监督局)
  《GB/T14243-93信息交换用汉字64×64点阵楷体字模集及数据集》(1993. 国家技术监督局)
  《GB/T14242-93信息交换用汉字64×64点阵黑体字模集及数据集》(1993. 国家技术监督局)
  (4)常用字体128×128点阵国家标准
  《GB/T14717-93信息交换用汉字128×128点阵宋体字模集及数据集》(1993. 国家技术监督局)
  《GB/T13444-92信息交换用汉字128×128点阵仿宋体字模集及数据集》(1992. 国家技术监督局);
  《GB/T13443-92信息交换用汉字128×128点阵楷体字模集及数据集》(1992. 国家技术监督局);
[FS:PAGE] 《GB/T14718-93信息交换用汉字128×128点阵黑体字模集及数据集》(1993. 国家技术监督局)
  (5)常用字体256×256点阵国家标准
  《GB/T14719-93信息交换用汉字256×256点阵宋体字模集及数据集》(1993. 国家技术监督局)
  《GB/T13446-92信息交换用汉字256×256点阵仿宋体字模集及数据集》(1992. 国家技术监督局);
  《GB/T13445-92信息交换用汉字256×256点阵楷体字模集及数据集》(1992. 国家技术监督局);
  《GB/T14720-93信息交换用汉字256×256点阵黑体字模集及数据集》(1993. 国家技术监督局)等。
  此外,国家技术监督局还公布了宋体、仿宋体、揩体、黑体四中常用字体的矢量字形库国家标准。
5)汉字矢量字形库国家标准:
  《GB/T13844-92图形信息交换用矢量汉字单线宋体字模集及数据集》(1992. 国家技术监督局);
  《GB/T13845-92图形信息交换用矢量汉字宋体字模集及数据集》(1992. 国家技术监督局)
  《GB/T13846-92图形信息交换用矢量汉字仿宋体字模集及数据集》(1992. 国家技术监督局)
  《GB/T13847-92图形信息交换用矢量汉字楷体字模集及数据集》(1992. 国家技术监督局)
  《GB/T13848-92图形信息交换用矢量汉字黑体字模集及数据集》(1992. 国家技术监督局)

参考文献:
  《第一批异体字整理表》
  《第二批异体字整理表》
  《简化字总表》
  《印刷通用汉字字形表》
  《现代汉语通用字表》
  《统一的新旧字形表》
  《信息处理用部首规范》
  《第一批异形词整理表》

  三、定音
1、什么是汉字定音
  汉字定音指规定现代汉语用字的标准读音。
2、汉字定音的必要性
1)现代汉语中存在大量的异读词,主要是因为记录这些词的汉字存在异读现象。例如:
“差”字共有四个读音,在不同的词语中有不同的读音。如果不加以注意,很容易读错:
chā 差别、偏差、误差、电势差、一念之差、阴差阳错、差强人意
chà 差不多、差不离、差不了、差远了、相差十万八千里
chāi 出差、公差、当差、官差
cī 参差错落、参差
2)人名、地名的异读,要进一步审定。
3)轻声词、儿化词在书面上没表示,在口语里有随意性,应加以明确。
4)一些多音多义字的读音也应该审定。
3、异读词的类型
  异读词中的汉字读音主要有三种情况:
  古今异读;
  方音异读;
  文白异读。
4、汉字定音的任务
1)纠正古今异读:汉字的读音实际上与汉字所记录的语词的实际发音密切相关。
  因为汉字不是表音文字,所以,汉字的读音又可以随着汉语语音系统的发展而改变。
  这样一来,古今汉语语音发展的信息就从古今异读中表现了出来。例如:
“远上寒山石径斜”中的“斜”在这里应该读“xiá”,而不能读“xié”。
  这就是古今异读。
2)纠正方音异读:现代汉语方言存在许多语音分歧现象。
  汉字可以随不同方言而变读。
  汉字在普通话有一个读音,在方言里有不同的读音。
  即使北京话中,也有一些字的读音与普通话不同。
  例如大量的儿化音、变调等。
3)纠正文白异读:文白异读指口语和书面语之间的异读现象。例如,
“街道”有“jiēdào/gāidào”两读;
“发酵”有“fājiào/fāxiào”两读;
“曝光”有“bàoguāng/pùguāng1”两读;
“麦芒”有“màiwáng/màimáng”两读;
“呆板”有áibǎn/dāibǎn 两读。
5、汉字定音的标准
  汉字定音的语音标准,就是以北京语音为标准音。
[FS:PAGE]   古今异读的以今为正;
  方音异读的以普通话读音为正;
  文白异读的根据社会习惯,以多数人的读音为正。
6、汉字定音的主要成果
  《普通话异读词审音表》
  提供了异读词的正确读音,可以作为指导汉字定音的主要的参照标准。  
主要参考文献:
  《汉语拼音方案》
  《汉语拼音证词法基本规则》
  《普通话异读词审音表》
  《中文书刊名称汉语拼音拼写法》

  四、定序
1、什么是汉字定序
  定序是指确定现代汉语用字的排列顺序,做到字有定序。
  首先需要确定汉字的排序方式,然后才能确定每个字的次序。
  传统汉字的排序法主要有义序法、形序法、音序法三种。
  形序法又有笔画法、部首法、号码法等三种。
  号码法中还有四角号码、三角号码、高低笔号等多种。此外,还有兼用不同方法进行汉字排序的,例如:先部首后笔画、先笔画后部首等等,方法众多,不一而足。
2、汉字排序法的源流
1)义序法
  是按照字义进行分类来排列顺序的,如古代辞书《尔雅》、《释名》等。
  如《尔雅》按照系列各类排列:
释诂、释言、释训、释亲、释宫、释器、释乐、释天、释地、释丘、
释山、释水、释草、释木、释虫、释鱼、释鸟、释兽、释畜等
  现代出版的《简明汉语义类词典》也是按意义排序的。
  按意义排序很难定出明确一致的标准,所以,除了特殊需要,一般不采用义序法。
2)形序法
  是按照字形特征进行分类来排列字序的。中国最早的一部字典《说文解字》就是根据字形结构特点排列汉字的。
  汉字结构复杂,可以作为排序依据的字形信息也相对较多。
  因此,形序法又分为以下三种:
a.笔画法
  这种方法实际上是笔画笔形法,主要根据汉字笔画的数量多少排列汉字。
  笔画数相同的字,根据不同笔形的顺序。
  汉字的基本笔画有五种。五种基本笔画如何排列次序也有不同。例如:
(1)“札”字法:按笔顺取“札”字的笔顺作排序依据,即:
“横、竖、撇、点、折”
(2)“丙”字法:按笔顺取“丙”字的笔顺作排序依据,即:
“横、竖、折、撇、点”;
(3)江天日月红法:取每个字的首笔形作排序依据,即:
“点、横、竖、撇、折”;
  目前,基本上多采用“札”字排序法,即“横、竖、撇、点、折”次序。
b.部首法
  部首法是按照汉字的部首排列汉字的顺序。
  部首和部首内的汉字按照笔画多少和笔顺排列。
  汉字部首起源于东汉末年许慎编撰的《说文解字》,该书首创540部首。
  《正字通》和《康熙字典》该并为214部。
  现代通行的字词典工具书,所采用的部首数量不尽相同。
c.号码法
  号码法主要有四角号码法。
  四角号码法的取码口诀:
“横一垂二三点捺,叉四插五方框六,七角八八九是小,点下有横变零头。”
  因为汉字笔形有很多变体,使用0到9十个数字代码,每种笔形必然概括许多变体。了解这些变体是掌握四角号码法的关键。
  四角代码的笔画变体:
1)所有起笔端与横笔运笔趋势一致的,例如“挑”、“横上钩”均为“横”(代码为1);
2)所有竖、撇和竖左钩均为垂(代码为2);
3)所有点和捺,包括左点、右点、以及横捺、斜捺归为一类,(代码为3);
4)所有两笔交叉的为(代码为4);
5)所有一笔纵或横穿两笔或两笔以上的均为“插”(代码为5);
6)所有方框,例如“口”、“囗”(代码为6);
7)所有折笔或者两笔画相接所形成的角形均为“角”(代码为7);
8)所有[FS:PAGE]两笔相离成正倒八字或八字变形的均为“八”(代码为8);
9)所有“小”字或“小”字变体的例如“肖”字头、“京”字脚均为“小”(代码为9);
10)点和横相结合,例如“享”“京”“高”“辛”诸字的上部均为“零头”(代码为0)。
  此外,还有一些细则需要掌握:
1)取码顺序按照:左上——右上——左下——右下的顺序;
2)一笔可以分角取码。如:
“以”2870;“七”4071;“几”7721;“习”1712;
3)相连的两个角共用一个代码笔形的,服从前面的角位,后面的角位用0代替。例如:
“全”8010;“本”4023;“禾”2023;“高”0022
4)一笔上下两段和其他笔画构成不同笔形的,分两角取号。例如:
“大”4080;“来”4023;“李”4040;“蛊”5010
5)全包围和“门”结构的字,后两码取里面的笔形。如:
“园”6021;“田”6040;“闭”3724;“问”3760;
6)一角有单笔和复笔两种笔形时,要取复笔笔形。如:
“少”9020;“扎”5201;“介”8022;“气”8001;
7)有两复笔可取的,在上角取较高的复笔,在下角取较低的复笔。如:
“也”4471,“军”3750;“成”5320;“皮”4024;
8)当中起笔的撇,下角有其他笔形的,不取撇而取其他笔形。如:
“衣”0073;“奎”4010;“友”4040;“寿”5034;
9)独立或平行的笔形,一律以最左或最右的笔形为角。如
“非”1111;“市”0022;“草”4440;“竹”8822;
3)音序法
  音序法是按照字的读音排列字的顺序。
  历代的韵书都属于按照“音序法”排列汉字的。现代汉语早期曾经采用“注音字母”记录的顺序排列汉字的方法,1958年《汉语拼音方案》公布实施以后,基本上都以《汉语拼音方案》拼写的汉字读音形式作为排序依据,根据汉语拼音字母表的顺序排列字的音序。
3、各种排序法的优缺点
1)义序法的优缺点
  优点
  可以从意义的角度成系统地查阅单字。
  缺点
①意义的类聚关系没有一定的标准;
②同义类内部的顺序排列没有客观的依据;
③不适合字数较多的工具书
2)笔画法的优缺点
  优点
  只要会数笔画数,熟悉笔画笔形的先后次序,掌握了部首就可以进行汉字的检索。
  缺点
①笔画数相同的字排序时存在二义性;
②有些字或者部件的笔顺不一致,影响正确排序。例如:
     母:中间是“横、点、点”还是“点、横、点”;
     竖心:是“竖、点、点”还是“点、竖、点”;
     万:是“横、撇、折”还是“横、折、撇”;
     女:是“横、折、撇”还是“折、撇、横”;
     车:末笔究竟是“数”还是“横”;
      等等,在普通使用者中间存在分歧。
③笔画数和笔顺都相同的字的排序存在二义性。例如:
    巾、山;
    开、井;
    天、夫;
    末、未;
    工、土、士;
    人、入、乂、八;
    九、几、乃、匕;
    已、己、巳、弓;
    丸、凡、夕、么、及、久、勺;
3)部首法的优缺点
  优点
①部首法历史悠久、使用广泛;
②基本适应汉字的结构特点,多数汉字与部首具有意义上的联系;
③基本符合人们从形查字习惯和要求,便于查检不会读音的生字。
  缺点
①部首的位置不固定,有些字难以确定部首;
②同笔画的部首字及同部首内的字,排列次序存在二义性。
4)号码法的优缺点
  优点
①可以直接根据笔形编码查字,避免了数笔画的繁琐。
②[FS:PAGE]汉字代码采用阿拉伯数字,汉字排列成自然数列,查找起来自然方便。
  缺点
①规则比较复杂,初学者不易掌握;
②重码字较多,需要增加区别码。
5)音序法的优缺点
  优点
①排检速度快,准确率高;
②不受简、繁字体的影响;
③符合国际上大都按音序检索的习惯。
  缺点
①读不出或读不准音的字、词可以排序,但是难以查找;
②同音字的顺序存在分歧。例如:
   《新华字典》shi4音节中下列32个字的顺序看不出具体的排列规则。
   士、仕、氏、舐、示、世、市、柿、式、试、拭、轼、弑、似、势、事、
   侍、峙、恃、饰、视、是、适、室、莳、逝、誓、释、谥、嗜、筮、噬、
  既不是部首法(单立人的字分开排列),又不是笔画法(笔画多少的字交叉排列),也不是频度法(使用频率高低不等的字混合排列)。好像是采用“声符”归类法,因为声符相同的字排列在一起。但是,不同声符之间的顺序如何排列的呢?因此,很令人费解。
③不适合用来编排收字较多的字典、词典;
  即使区分声调,现代汉语的带调音节约为1300个。《汉语大字典》56000个汉字,平均每个音节的同音同调字约为43个。如果考虑到各个音节汉字分布的不均匀性,个别音节的同音字会超过100甚至更多。这些同音字由于排列无明确规则,因此查找起来很费时间。
4、汉字定序的主要成果
  (1)1964年,教育部和文字改革委员会联合成立了汉字查字法工作组,对各种排检法进行整理、研究,提出了“部首查字法”、“四角号码查字法”、“笔形查字法”、“拼音字母查字法”等四种草案。
  (2)二十多年来,我国出版的各种字典辞书基本上都是根据这四种检字法编排的。
  (3)1983年拟订了《统一汉字部首排检草案》选用了201个部首,使部首查字法得以规范化。
  (4)汉字信息处理中的汉字编码,也属于汉字排序问题。
  汉字编码是把汉字变换成字母数字代码,便于通过键盘把汉字输入计算机。
  汉字编码的方案先后提出了几百种,概括起来主要有字形编码法(形码)、字音编码法(音码)和形音结合编码法(形音码或音形码)三类。
  各类编码中都存在不同数量的“重码”。这些重码从根本原因上说,就是因为汉字的定序问题没有解决所造成的。
  汉字编码的研究和应用,对汉字定序起到了积极的促进作用。