说文解字在线查询(说文解字在线查询国学大师网)

光明日报记者周金晓燕快速、权威、生动——要准确找到一个难搜字的相关信息,不用跑遍古籍阅览室,只需轻点鼠标——登录汉字全息资源应用系统,点击现代通用字集,搜索你想

光明日报记者周金晓燕

快速、权威、生动——要准确找到一个难搜字的相关信息,不用跑遍古籍阅览室,只需轻点鼠标——登录汉字全息资源应用系统,点击现代通用字集,搜索你想要的字,不仅能显示其现代字体、读音、词义信息,还能找出该字从甲骨文、金文到篆书、楷书的历史字体演变过程。

日前,国家语委重大基础资源建设项目“通用汉字全息数据库建设”的标志性成果——汉字全息资源应用系统正式上线。本项目旨在利用现代中文信息处理技术,建立一个多维关联、系统科学、高效实用的中文全息数据库。

“无论是学习汉字的小学生,还是学习汉字的学者,系统都能提供相应的帮助。”项目主持人、北京师范大学教授王立军介绍了该系统采用的多层次字符集设计模式,包括常用字符集、现代常用字符集、古籍印刷常用字符集、全字符集等。常用词集可以满足中小学教育的一般需要;现代通用字符集可以满足一般汉字用户在社会文化领域的需求;古籍印刷通用字符集面向具有一定古汉语知识,阅读一般古籍文献的用户;全字库可以满足专业人员对汉字研究的需求,为专业研究提供支持。

借助资源库绘制汉字家谱。

作为一个古文字爱好者和研究者,张华的书桌上堆满了字典和工具书——要搞清楚一个字在不同时期的形、音、义的演变,往往需要翻阅许多“大书”,才能找到一个相对准确、权威的答案。然而,许多在线汉字数据库存在收集不完整、权威性差的问题。现在,“汉字全息资源应用系统”的正式上线,或许可以让他不再担心——有了资源库的帮助,“可以查古今汉字”不再是梦想。

在线系统涵盖4个字符集,包括3500个常用字、8105个常用字、16490个古籍印刷字和81722个全字符集。还有字典20部,古籍60部,历代字形415675个。包括大量的图形信息资源和文字信息资源,分别来自古文字拓片、文字汇编、规范字表、编码字符集、历代字典、经典文献、中小学语文教材等。,涵盖了古今文字的形、音、义、用、码五个方面的重要信息。

这个数据库可以说是“海量”的。如此庞大的信息量是如何相互对应和关联的?

如果说建立数据库是为了给汉字家族画一个张家铺,那么建立关联就是为了摸清谱系、辈分等关系。“首先是汉字属性的分解。要建立多角度关系的实用汉字数据库,必须以汉字的属性为基本支撑。”北京师范大学教授王宁指出,该团队从上世纪90年代开始总结汉字的属性,除了形、音、义之外,增加了代码和用法两部分。代码是汉字在计算机中的编码,是汉字的使用。而且在属性细化方面做了大量的研究,使得将通用的汉字个体资源库转化为汉字属性库成为可能,解决了相关的多角度问题。

王宁解释说:“其次是层级的设立。根据‘汉字下降率’,我们把汉字分为五个等级:常用-通用-适用-稀有-无用。一、二级覆盖36000个单词,其他单词只记忆不深入开发,这样一方面可以在应用中拓展有用信息的用途,另一方面可以在不干扰有效信息收集和调用的情况下,将垃圾信息和无用信息分离。”

“再一次,是寻找中介。我们继承传统语言学的研究成果,以《说文解字》中的9353个小篆及其重文为中介进行关联。大部分古文字的精确阅读都是从《说文》开始的,从而保证了不同形状、字体、时代的汉字的最大关联。”王宁补充说,只有依靠《说文》篆书的“核心家族成员”,才能把汉字家族中不同民族的谱系画在一起。

沟通古今,提供准确的汉字属性信息。

实现古文字和繁体字的交流是这个资源库的另一个重要特点。据介绍,该系统的主要字符集是国家语委2013年公布的《通用规范汉字表》中的8105个规范汉字及其关联字形。《通用规范汉字表》属于简化字体系,分为一级字表(即常用字表,3500字)、二级字表(3000字)、三级字表(1605字)。通用规范汉字表作为数据库子库的B库,直接关联A库(承袭字、繁体字、隶书字),再关联篆书等古文字(C库),从而实现古今、简繁汉字的有效贯通。

如何保证每个汉字的形、音、义的权威解读?

王立军介绍,系统化的处理方法是:选取历代有代表性的辞书,选择最好的版本作为构建框架的基础材料,在此基础上构建数据之间的深层关联。入选词典有《尔雅》、《说文》、《释名》、《方言》、《广韵》、《集韵》、《康熙字典》、《汉语词典》、《新华字典》、《通用规范汉语词典》。字形方面,简化字采用国家语委2009年公布的《汉字部首表》,即201个主形部首和99个辅形部首,非简化字采用214部首系统,该系统来自《康熙字典》。简体字和繁体字的笔画数属性请参考《通用规范汉字字典》等。结构的属性参考《说文解字》(六书)。在发音方面,现代汉语拼音和朱茵字母主要参考《通用规范汉字字典》和《中华民国国语字典》。现代音来自中原韵;中古音来自广韵。词义方面,常用义来自《通用规范汉字词典》,给出了历代词典的定义。

多重属性的综合呈现,可以加深人们对每个汉字的理解。比如“既然”和“即使”这两个词在使用中很容易混淆,但在指篆书时就不会了——“既然”是指一个人背对着餐桌,表示已经吃完了,这个词表示已经发生了;而“即”是指一个人正对着餐桌,离它很近,还没吃饭,所以表示即将发生。知道了这个水平,就会加深理解,也就很难出错了。

汉字不是“孤”的符号,中国文学就像身体的血肉,丰富着汉字殿堂的内容。在每个字的“用例”一栏中,系统地选取了有代表性的传世文献作为古籍用例的来源,包括《十三经》、《二十五史》、《二十二子》,并摘录了这些文献中使用的汉字实例,供研究者参考。

多重搜索,满足不同用户的需求。

与字典搜索类似,便捷的检索也是该系统的一大特色。为了方便用户更方便地输入需要查找的单词,系统提供了单字、拼音、偏旁部首、部件、笔画等五种查找方式。用户可以根据自己的喜好和需求选择适合自己的方式。除单字检索外,还能满足历代综合检索、专书检索、字体检索的要求。

“你看,‘典’字是两只手拿着卷轴的。这是一个怎样的形象。文史研究者用来研究太方便了。我现在就想拥有它。”动画演示刚结束,现场主持人、北师大文学院教授康震激动地说。

“资源库可以作为文字、文化爱好者提高文化知识和综合素质的学习平台,为传统文化爱好者提供权威的学习内容;可以作为基础教育和国际汉语教育领域的教学平台,为学生的学习和教师的备课提供丰富的教学资源,从而更好地服务于我们的基础教育。作为文献学及相关专业领域专家学者的研究平台,为专家学者提供了数据资源深度挖掘的工具,弥补了传统手工方式获取和接触资源的局限性;作为汉字数字化产品的开发平台,可以为开发者提供大量可靠的经过专业处理的汉字属性资源。”王立军指出。

光明日报(2019年01月27日04版)

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/59337.html

发表回复

登录后才能评论