怎么识别古文字(古代文字识别字典)

古籍是传承人类文明的珍贵载体。每一本古书都有丰富的文字和非文字信息。每一点信息都是历史遗迹。修复前的相关信息可以弥补古籍实物信息的损失。我国有大量的古籍档案,古

古籍是传承人类文明的珍贵载体。每一本古书都有丰富的文字和非文字信息。每一点信息都是历史遗迹。修复前的相关信息可以弥补古籍实物信息的损失。

我国有大量的古籍档案,古籍档案的修复主要是恢复档案中的文献资料,可以为各种科学研究提供依据。古籍修复经验的积累和理论知识、先进技术的突破,可以促进行业整体修复能力的提升。而且,完整、科学的古籍档案修复数据是一个巨大的宝库,蕴含着大量的古籍信息资源,对图书馆文献的收藏管理、文献研究和先进修复原理和技术的推广具有重要意义。

那么现代古籍扫描仪是如何扫描这类古籍的呢?

珍贵古籍需要及时保护和修复。在历史的长河中,古籍保护势在必行。首先,古籍扫描仪是扫描古籍的专用设备,不会对古籍本身造成损害,因为它可以不接触古籍进行扫描。

怎么识别古文字(古代文字识别字典)插图

其次,如果想打开要扫描的古籍善本,可以直接放在扫描区扫描,不需要拆解。古籍扫描景深可达15cm。不仅可以扫描,还可以扫描古代历史竹卷等立体书籍。

因为古籍扫描仪的分辨率很高,400-800 dpi的光学分辨率会把图像渲染的非常清晰,我们可以看到扫描的图像本身和色彩还原的程度都是可以的。

怎么识别古文字(古代文字识别字典)插图(1)

在网络时代,任何知识信息得以充分利用的前提是能否转化为数字信息。古籍具有很高的学术价值。东方明德采用计算机技术将古籍数字化,制成书目数据库和全文数据库,不仅能有效保护古籍,还能更好地传播和利用古籍,提高古籍利用率。

模块化和流水线数字处理

公司避开了手工作坊生产模式,建立了数字化加工工厂。并创造了从数据整理去污→扫描→图像处理(纠偏、消蓝、图像增强、去杂)→OCR识别(版面分析、识别、横向校对、纵向校对、文档导出)→索引建立→光盘刻录(全文检索、二次检索、模糊检索)的流水化处理方法,大大提高了处理效率和效果。规范加工流程、项目管理方法和制度,合理分配人员到各个流水线节点,打造优化的项目质量保证体系,使每一个新的加工项目都能继承原项目的优秀经验,在这个新项目中产生的经验能被下一个项目有效继承和发扬。

大规模的生产和流水线作业使加工工人能够做好自己最擅长和最熟练的工作,从而导致项目质量的不断提高和单位成本的稳步下降。

成熟的软件产品

东方明德本着宽广的胸怀,包容各种优秀的人才和产品。由于经济全球化带来的人才和竞争压力,任何公司都不可能完全依靠自己,在市场上立于不败之地。如果它想在竞争中生存,它必须与他人合作。

我们引入了TH-OCR输入工厂,并与清华紫光建立了合作伙伴关系,在数字领域的各种产品和服务方面进行合作。

流程管理和质量控制:

流程管理贯穿于输入工厂的整个生产过程,服务器全程控制,将数据打包分发到各个客户端;客户端接收数据包,完成过程中的一个或几个过程,将数据打包发送回服务器。质量控制功能是检查最终文本错误率的有效工具。它以独特的方法检查文本经过横向校对、纵向校对和综合校对后的错误率,确保最终文本的错误率在一定范围内。流程管理和质量控制是高效、高质量地输入大量数据的重要环节。

东方明德的数据数字化解决方案以OCR输入工厂为核心产品,辅以图像净化处理系统和图形验证工具。在整个过程中,融合了东方明德多年来在数据数字化领域的管理和生产经验,确保为用户提供优秀的产品和服务。

数字过程

1.古籍登记:将珍贵的古籍带出图书馆进行数字化扫描,使制作古籍的每一项技能都必须严格登记,避免遗漏。登记确认每本古籍总页数时,与管理人员交接。

2.古籍整理:将古籍整平,确保不粘连、不折叠、不偏少。确认处理后,将使用图书扫描仪开始数字扫描。如果没有页码,则需要手动编页码,以防止扫描失序和掉页。

3.古籍扫描:扫描时,根据每本古籍的不同情况,做出相应的处理。如果古籍保存完好,可以用玻璃压板将古籍压平扫描;如果古籍纸张较薄,应使用空的白色A4纸插垫,以保证获得的图像不会出现影响观看效果的背透;如果古籍的情况不太理想,就没必要用玻璃压板压平,图书扫描仪要有PerfectBook功能才能扫描。

4.图像修图:对扫描的图像进行校正、涂黑、分页、镶嵌,以便更高效地还原原始图像。

5.图像的质量检查:对处理后的图像进行统一的质量检查,质量检查根据具体情况可分为一次质量检查和两次质量检查。主要是检查图像的质量,以及是否存在漏页、重复扫描等情况。发现问题,及时纠正,弥补等等。

6.识别和输入:OCR用于分析图像的布局,如横竖字符、图片和表格等。分析后的图像OCR会进行智能识别和人工校对(可以先垂直校正,再水平校正),保证质量,降低错误率。

7.格式转换——双层PDF图形格式:通过扫描制作TIFF图像,然后通过OCR技术将所有图像形式识别为可搜索的汉字,并将文字和图像一一对应,从而制作一个上面有图像,下面有文字的双层PDF文件。不仅方便用户快速准确地找到所需内容,还能让用户还原古籍原貌。双层PDF特别适合古籍数字化。很多汉字由于书写不同、虚假或忌讳等原因无法完全识别,用户可以通过图片进行对比。

8.数据存储:存储压缩转换后的数据,然后通过网络传输到磁盘阵列进行存储。

9.入库古籍登记:完成后,将扫描的古籍和未完成的古籍入库。与管理人员逐一核对,核对无误后登记。登记完成后,古籍即可入库。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/192503.html

发表回复

登录后才能评论