首页 >>  正文

数据库中文字符集

来源:baiyundou.net   日期:2024-08-07

目前,在通用电脑字符集中已编码汉字总数已达9万以上,但有7万多字在数据库中并不能使用。针对目前中文字符集中古文字缺位、有字不能用、有字不好用等问题,今年的全国两会上,全国人大代表、华东师大党委书记梅兵建议,完善中文字符集,推动传统文化数字化传播。

今年2月中共中央、国务院印发《数字中国建设整体布局规划》提出,打造自信繁荣的数字文化,深入实施国家文化数字化战略。然而,数字媒体时代,文字信息的传播高度依赖于字符集这一基础支撑平台,由于当前中文字符集建设的不足,作为传统文化基本载体的历史文献在数字化传播中存在话语障碍,直接影响了弘扬中华优秀传统文化和国家文化数字化战略。

梅兵代表指出,主要问题包括:

字符集中古文字缺位,造成最具历史厚度的中华文化资源的网络盲区。具体来说,作为中国传统文化主要载体的历史文献分两类:一类是传世文献(十三经之类),另一类是出土古文献(主要是古文字文献)。而作为中国文化传承系统两翼之一的古文字,却并未被目前国际标准电脑字符集所覆盖。

其次,有字不能用,大批已在国际标准中编码的汉字网络和数据库使用受限。以最重要的字书《说文解字》为例,第一卷收字703个,其中属于网络和数据库受限使用的126个。编码字遭到网络排斥,检索查找的对象常被张冠李戴,乱点鸳鸯,传统文献的网络阅读就如被蒙上一头雾水。例如,在网上查找“ ”字(《集韵》“色入切,木茂貌”),而获得的检索结果却是“穑” 等一些毫不相干的字。值得注意的是,已经正式在国际标准字符集中获得合法地位的汉字,竟有70%以上还遭受如此不公正待遇,这对传统文化数字化传播造成的负面影响是难以估量的。

再次,有字不好用,作为中文字符集核心的GBK部分大面积存在“一字多码”状况。当前在网络和数据库中使用不受限的汉字只有GBK字符集这个范围,但是GBK字符集却存在“一字多码”的问题。在文字输入过程中,一字多码的输入源,就可能导致同字却使用不同内码字的结果,由此造成文献搜索查找的尴尬:该找到的找不到,该搜齐的搜不齐,传统文化宝藏的数字化传播就这样在不知不觉中被打了折扣。不难推想,在这样一个字符集支持下去进行传统文献的数字阅读,会发生很大问题。

对此,她建议高度重视中文字符集建设,加强整体规划和协调管理。例如,解决“一字多码”的问题并不困难,可开发针对性的输入法,用提示多码字的方式来帮助输入者规避不当文字输入。在网络检索的环节,则可以通过开发有效的同字多码认同程序来保证检索数据的准确性。另一方面,要实现中国标准的统一编码,增强中文字符集的国际影响力。




  作者:储舒婷

  编辑:储舒婷

责任编辑:樊丽萍


*文汇独家稿件,转载请注明出处。

","force_purephv":"0","gnid":"94a5819047662c5c9","img_data":[{"flag":2,"img":[{"desc":"","height":"1280","title":"","url":"https://p0.ssl.img.360kuai.com/t01bb15bd7dd00ea042.jpg","width":"1708"}]}],"original":0,"pat":"art_src_1,fts0,sts0","powerby":"hbase","pub_time":1678012207000,"pure":"","rawurl":"http://zm.news.so.com/b3932f8ef8fbe463814f2abf84a9868e","redirect":0,"rptid":"364edf3c01c63fde","rss_ext":[],"s":"t","src":"文汇网","tag":[{"clk":"kculture_1:传统文化","k":"传统文化","u":""}],"title":"梅兵代表:完善中文字符集,推动传统文化数字化传播

孙丹家3140如何查看和修改Oracle数据库服务器端的字符集 -
熊栋奚17725906219 ______ Oracle 字符集的查看和修改 一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系.ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储,处理,检索数据.它使数据库工具,错...

孙丹家3140如何在MySQL中判断中文字符 -
熊栋奚17725906219 ______ 用正则表达式来判断,示例SQL代码如下:select username from user where not(username regexp "[\u0391-\uFFE5]");这个正则表达式就能判断出来了.

孙丹家3140LINUX - ORACLE安装,应该选择哪些字符集 -
熊栋奚17725906219 ______ ORACLE用这个就行:NLS_LANG=AMERICAN_AMERICA.ZHS16GBK 说明:NLS_LANG一般由三个部分组成, 语言、地域和字符集.真正影响数据库字符集的其实是第三部分.ZHS16GBK表示采用GBK编码格式、16位(两个字节)简体中文字符集 .LINUX也可以用这个字符集.

孙丹家3140mysql字符集是latin1,如何将中文存进去 -
熊栋奚17725906219 ______ 数据库是latin1也可以存入中文的~创建表字段的时候,设置字段字符集为UTF-8(utf8 general)就行了

孙丹家3140oracle更改字符集 -
熊栋奚17725906219 ______ 数据库的字符集是初始化参数,可以通过alter system命令修改,命令大概是:alter system set nls_language=??? scope=spfile;

孙丹家3140如何更改Oracle字符集 -
熊栋奚17725906219 ______ 如何更改Oracle字符集国内最常用的Oracle字符集ZHS16GBK(GBK 16-bit Simplified Chinese)能够支持繁体中文,并且按照2个字符长度存储一个汉字.UTF8字符集是多字节存储,1个汉字(简体、繁体...

孙丹家3140如何查询Oracle的字符集 -
熊栋奚17725906219 ______ 用以下命令查看oracle字符集:select userenv('language') from dual;

孙丹家3140如何让wampserver php字符集 -
熊栋奚17725906219 ______ 在给表中插入中文字符时显示“??”,Baidu一番后给my.ini的配置文件中增加了默认字符集的配置 解决方案一: 需要将MySQL的字符集改为UTF-8.左键点击托盘区的WampServer图标,选择MySQL--my.ini,就会打开MySQL的配置文件 了,在...

孙丹家3140mysql中文乱码,怎么解决? -
熊栋奚17725906219 ______ linux下mysql插入中文显示乱码解决方案 mysql -uroot -p 回车输入密码 进入mysql查看状态如下:mysql不能插入中文 默认的是客户端和服务器都用了latin1,所以会乱码.解决方案:mysql>user mydb; mysql>alter database mydb character set utf8...

孙丹家3140mysql显示中文乱码 -
熊栋奚17725906219 ______ mysql --defaults-charset=utf8 -h主机 -P端口 -u用户名 -p密码

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024