首页 >>  正文

拾典古籍

来源:baiyundou.net   日期:2024-07-06

IT之家 10 月 12 日消息,据字节跳动宣布,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版上线。目前,平台已上线 390 部经典古籍,共计 3000 多万字,向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛家的核心书目。

“识典古籍”测试版网站首页,https://www.shidianguji.com/

据不完全统计,中国现存古籍约 20 万种,其中已经完成数字化影像扫描的有 8 万种,而实现文本数字化的仅 3-4 万种。

为了方便大家在古籍“图书馆”里检索、阅读,“识典古籍”平台主要采用三项人工智能技术:

一、文字识别,也就是用 OCR(光学字符识别)技术将古籍影印版图像识别成文字。目前行业内 OCR 的识别准确率平均为 93% 至 94%,而“识典古籍”将这个数字提高到 96% 至 97%。

二、自动标点,指通过算法,给原本缺少断句的古籍自动打上标点符号。举个例子,《论语》开篇“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”

三、命名实体识别,即识别古籍中的“专有名词”,包括人名、地名、书籍、时间、官职五大类型。

字节跳动称,与同类型平台相比,“识典古籍”访问比较稳定,速度快。繁简体转换和主题词检索功能,便于高效获取内容。平台还提供了权威来源的影印版底本,与数字化文本内容互相对照。另外,一年多来,字节跳动资助国家图书馆定向修复珍贵古籍 104 册件,现已完成 50 余册件,包括一批稀有的样式雷图档。

IT之家获悉,未来,“识典古籍”还将实现全自动整理校对,并免费开放这项能力,促进存量古籍数字化。平台还将向全社会开放古籍阅读检索研究能力,同时鼓励拥有文献的学者自行上传文献,用户还能参与再创作和再阐释。

","force_purephv":"0","gnid":"989b26c94b36c61eb","img_data":[{"flag":2,"img":[{"desc":"","height":"578","title":"","url":"https://p0.ssl.img.360kuai.com/t01793f1a617cee78dc.jpg","width":"1080"},{"desc":"","height":"5513","title":"","url":"https://p0.ssl.img.360kuai.com/t01c7b1dd6fb540eba0.jpg","width":"1000"}]}],"original":0,"pat":"art_src_1,fts0,sts0","powerby":"hbase","pub_time":1665552844000,"pure":"","rawurl":"http://zm.news.so.com/4245640071ac56107a682bef274f3cc4","redirect":0,"rptid":"777bf67f5ca69586","s":"t","src":"IT之家","tag":[{"clk":"ktechnology_1:论语","k":"论语","u":""},{"clk":"ktechnology_1:字节跳动","k":"字节跳动","u":""}],"title":"字节跳动“识典古籍”测试版上线

计裘艺2916“册”“典”“删”的来历 -
蒋儿玛15572246795 ______ 1.册:在春秋战国至魏晋时代,因为当时还没有纸,人们只好把文字写在狭长的竹片或木片上.竹片称“简”,木片称“扎”或“牍”.这种竹片或木片,通称为“简”.一块简只能写几十个字,记载一件事,因而往往需要很多块“简”.为了...

计裘艺2916介绍点超经典的 书 :古书
蒋儿玛15572246795 ______ 资治通鉴

计裘艺2916我国最早一部字典是 -
蒋儿玛15572246795 ______ 我国最早(第一部)字典是:《说文解字》(汉·许慎). 还有其它的我国古籍“第一部”: 第一部词典是《尔雅》(汉). 第一部韵文书是《切韵》(隋·陆法言). 第一部方言词典是《方言》(西汉,扬雄). 第一部字书是《字通》. ...

计裘艺2916关于康熙字典和四库全书 -
蒋儿玛15572246795 ______ 《康熙字典》,是张玉书、陈廷敬等三十多位著名学者奉康熙圣旨编撰的一部具有深远影响的汉字辞书.该书的编撰工作始于康熙四十九年(1711),成书于康熙五十五年(1716),历时六年,因此书名叫《康熙字典》.由总纂官张玉书、陈...

计裘艺2916闻—多在古代典籍的研究上取得了哪些硕果 -
蒋儿玛15572246795 ______ 1928后致力于古典文学的研究.对《周易》、《诗经》、《庄子》、《楚辞》四大古籍的整理研究,被郭沫若称为“前无古人,后无来者”.《楚辞补校》(古典文学研究)1942,重庆国民图书出版社 .《神话与诗》(古典文学研究)1956,古...

计裘艺2916古籍《老学庵笔录问题请详细介绍老学庵笔录》的作者、年代和主要
蒋儿玛15572246795 ______ 作者:陆游 年代:南宋 主要内容: 南宋著名文学家陆游所撰的一部笔记体小品文集,记述了当时社会历史、政治、人物、等许多掌故和轶闻 《老学庵笔记》以老学庵命名...

计裘艺2916闻一多在古代典籍的研究上取得了哪些硕果 -
蒋儿玛15572246795 ______ 闻一多致力于中国古代文学研究.他从唐诗开始,继而上溯,由汉魏六朝诗到《楚辞》、《诗经》,由《庄子》而《周易》,对《周易》、《诗经》、《庄子》、《楚辞》四大古籍的整理研究, 由古代神话而史前文学,同时对古文字学、音韵学、民俗学也下了惊人的功夫,涉猎之广,研究之深,成果之丰,郭沫若叹为不仅前无古人,恐怕还要后无来者. 在此基础上他出版了以下研究成果:1. 《楚辞校补》(古典文学研究)2. 《神话与诗》(古典文学研究)3. 《古典新义》4. 《唐诗杂论》(古典文学研究)5. 《闻一多论古典文学》6. 《离骚解诂》(古典文学研究)

计裘艺2916有什么记载三国故事的古书?不要小说不要评说! -
蒋儿玛15572246795 ______ 《献帝春秋》,原本十卷,今残一卷.作者不详.或说东汉时人撰,或说晋袁晔撰.袁晔,字思光,广陵(扬州)人.记述东汉献帝时期史事,久佚.今有元陶宗仪辑本一卷,见《说郛》.《华阳国志》,是一部专门记述古代中国西南地区地方...

计裘艺2916古籍善本的古代书籍的几种代称 -
蒋儿玛15572246795 ______ 青简、韦编、青编 古代没有纸时,把字写在竹简上,用皮绳把竹简编缀起来,故称书籍为“青简”“韦编”.“韦”就是用来编扎竹简的皮绳.“青编”即“青丝编”,以青丝编结,用来记事,因而古代记事书籍常以“青编”代称.芸帙、芸编...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024