首页 >>  正文

识典古籍入口

来源:baiyundou.net   日期:2024-07-03

IT之家 10 月 12 日消息,据字节跳动宣布,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版上线。目前,平台已上线 390 部经典古籍,共计 3000 多万字,向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛家的核心书目。

“识典古籍”测试版网站首页,https://www.shidianguji.com/

据不完全统计,中国现存古籍约 20 万种,其中已经完成数字化影像扫描的有 8 万种,而实现文本数字化的仅 3-4 万种。

为了方便大家在古籍“图书馆”里检索、阅读,“识典古籍”平台主要采用三项人工智能技术:

一、文字识别,也就是用 OCR(光学字符识别)技术将古籍影印版图像识别成文字。目前行业内 OCR 的识别准确率平均为 93% 至 94%,而“识典古籍”将这个数字提高到 96% 至 97%。

二、自动标点,指通过算法,给原本缺少断句的古籍自动打上标点符号。举个例子,《论语》开篇“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”

三、命名实体识别,即识别古籍中的“专有名词”,包括人名、地名、书籍、时间、官职五大类型。

字节跳动称,与同类型平台相比,“识典古籍”访问比较稳定,速度快。繁简体转换和主题词检索功能,便于高效获取内容。平台还提供了权威来源的影印版底本,与数字化文本内容互相对照。另外,一年多来,字节跳动资助国家图书馆定向修复珍贵古籍 104 册件,现已完成 50 余册件,包括一批稀有的样式雷图档。

IT之家获悉,未来,“识典古籍”还将实现全自动整理校对,并免费开放这项能力,促进存量古籍数字化。平台还将向全社会开放古籍阅读检索研究能力,同时鼓励拥有文献的学者自行上传文献,用户还能参与再创作和再阐释。

","force_purephv":"0","gnid":"989b26c94b36c61eb","img_data":[{"flag":2,"img":[{"desc":"","height":"578","title":"","url":"https://p0.ssl.img.360kuai.com/t01793f1a617cee78dc.jpg","width":"1080"},{"desc":"","height":"5513","title":"","url":"https://p0.ssl.img.360kuai.com/t01c7b1dd6fb540eba0.jpg","width":"1000"}]}],"original":0,"pat":"art_src_1,fts0,sts0","powerby":"hbase","pub_time":1665552844000,"pure":"","rawurl":"http://zm.news.so.com/4245640071ac56107a682bef274f3cc4","redirect":0,"rptid":"777bf67f5ca69586","s":"t","src":"IT之家","tag":[{"clk":"ktechnology_1:论语","k":"论语","u":""},{"clk":"ktechnology_1:字节跳动","k":"字节跳动","u":""}],"title":"字节跳动“识典古籍”测试版上线

诸怜底1317关于古籍文物常识 -
堵禄依19427919546 ______ 鉴定古籍版本对收藏者的意义重大,版本学是从书籍的字体、纸张、版式、刀法、墨色、刻印、题跋、批稿、印章等方面来研究图书版本的,在鉴定一部比较完整的古籍(即全文、序跋、版式、刻工姓名等都具备)的情况下,所审阅、考察和判...

诸怜底1317一本书(字典、古籍)的卷首页是什么? -
堵禄依19427919546 ______ 扉页

诸怜底1317三味书屋是哪三味? -
堵禄依19427919546 ______ 何为“三味” 1.古人有两种说法:其一是前人对读书感受的一种比喻,“读经味如稻粱,读史味如肴馔,读诸子百家味如醯醢,”三种体验合称为“三味”;其二是“三味”出自宋代李淑《邯郸书目》:“诗书味之太羹,史为折俎,子为醯醢...

诸怜底1317有哪些旧书网站值得推荐 -
堵禄依19427919546 ______ 孔夫子旧书网,不过今年春节后,许多书提价,让感到有点小贵.

诸怜底1317中国基本古籍库的介绍 -
堵禄依19427919546 ______ 《中国基本古籍库》是黄山书社出版的一本图书,作者是北京爱如生数字化技术研究中心.

诸怜底1317古籍怎么鉴定的 -
堵禄依19427919546 ______ 目前市场上出本多有明物清代售元、中集》古籍相符,华物《甲申书,较为代的华博籍的纸盛行,但唐、博县宋、元、明等麟角,难华物朝华中代的古籍书已是凤大致博中坊毛麟角,解.其博会,有如难以二、博华坊刻本指见指博指到,故大多...

诸怜底1317福昕扫描王OCR识别可以扫描古籍书本吗? -
堵禄依19427919546 ______ 可以识别,古籍中的文字也是印刷体,所以可以良好的识别出来,直接导出成PDF文件就可以直接拿去打印了.

诸怜底1317'畠'字在哪部字典能查到?要求古籍字书! -
堵禄依19427919546 ______ 康熙字典吧.说文解字里面可能也有.● 畠 zāiㄗㄞˉ ◎ 古同“町”.● 畠 zīㄗˉ ◎ 古同“甾”.◎ 畠tián 〈名〉 日本汉字,旱地 [dry land].多用于日本姓名

诸怜底1317书是智慧的源泉,是取之不尽、用之不竭的知识宝库,照此造句,书是( ),是( )、( ). -
堵禄依19427919546 ______ 书是人类的朋友,是可以促膝长谈、指引前行的良师益友.

诸怜底1317中国最早的词典是什么? -
堵禄依19427919546 ______ 《尔雅》是中国最早的一部解释词义的书,是中国最早的词典,也是儒家的经典之一,被列人《十三经》之中. 在历史上,《尔雅》备受推崇.这是由于《尔雅》汇总、解释了先秦古籍中的许多古词古义,成为儒生们读经、通经的重要工具书...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024