首页 >>  正文

excel跨表格提取对应数据

来源:baiyundou.net   日期:2024-09-20

今天下午,小米创办人雷军介绍了小米自研的一套表格识别算法,该算法高效准确地将图片中的表格转化为可编辑的Excel文件,大幅提升使用体验。

表格识别是指将图片中的表格结构和文字信息识别成计算机可以理解的数据格式,在办公、商务、教育等场景中有着广泛的实用价值,也一直是文档分析研究中的热点问题。

围绕这个问题,小米研发了一套表格识别算法,该算法高效准确地提取图片中的表格,转化为可编辑的Excel 文件。目前算法已经成功落地于小米10S系列、MIX Fold 2等旗舰机型,大家可以从相册-更多-表格识别,或者扫一扫进入体验。

表格检测算法

小米表示,表格检测算法主要是从图片中准确的提取表格区域,并对表格进行矫正,得到平整的表格图片以便下一步的表格识别;

表格识别算法主要是从图片中提取表格结构和表格文字内容,然后将这些信息有效的结合在一起,输出可编辑的Excel表格。

表格检测有以下难点:一方面是手机上的算法和内存有限,另一方面是对表格检测结果要求非常高,表格周围往往包含其他文字,如果检测结果不准,会对后面的识别结果造成负面影响。

小米的表格检测算法会同时检测到表格区域和表格的四个角点,通过透视变换和我们自研的抗扭曲算法得到只有表格区域的平整表格,效果如图所示。

由于算法运行在手机端,需要保证运行速度和模型大小,小米采用了一个非常轻便的一阶段检测框架,backbone采用shuffleNetV2;

在检测出表格框的同时,回归出关键点信息,便于表格的透视矫正,并用Wing loss代替L1 loss让关键点回归更加准确;

数据方面,用算法低成本地从公开数据中挖掘大量表格检测数据,显著性地提高表格检测效果。最终模型大小为1M左右,顺畅地运行在小米手机上。

表格识别算法

表格识别算法在服务端运行,主要包含的模块有:文本检测、文本识别、表格结构预测、单元格匹配、对齐算法、Excel导出。

目前主流的方法是将表格用HTML的超文本表示,然后对HTML进行编码,预测HTML序列和对应的坐标信息。

该方法在开源数据集上取得了不错的效果,中国平安科技和百度也采用了这种方案,但是HTML 的标签过多导致表格结构识别容易出错。

针对该方法的不足,我们对表格采用全新的编码方式,仅用四个标签就能表示任意结构的表格,极大地提高了表格结构识别准确率。

表格识别在部署过程中,采用Fastertransformer推理框架进行加速,官方称小米的推理速度提升了大约20倍,明显改善用户体验。

总结

该算法能高效方便地从图片中提取表格,极大地提高办公效率。小米表示,工程师们将持续提升小米手机中文档类图片的识别体验。

","force_purephv":"0","gnid":"99ab8e55cdaf1954d","img_data":[{"flag":2,"img":[{"desc":"","height":"325","title":"","url":"https://p0.ssl.img.360kuai.com/t016c1ff28a79d85736.jpg","width":"600"},{"desc":"","height":"266","title":"","url":"https://p0.ssl.img.360kuai.com/t01fc8acfa642a32b86.jpg","width":"600"},{"desc":"","height":"268","title":"","url":"https://p0.ssl.img.360kuai.com/t01e95f341e06550651.jpg","width":"600"},{"desc":"","height":"400","title":"","url":"https://p0.ssl.img.360kuai.com/t01a21674a95e43cf90.jpg","width":"600"}]}],"original":0,"pat":"xmc,art_src_3,fts0,sts0","powerby":"hbase","pub_time":1662212580000,"pure":"","rawurl":"http://zm.news.so.com/21f34e07b3141b8cdad798ecd2247ca4","redirect":0,"rptid":"bdd5bae6d06f3a18","s":"t","src":"驱动之家","tag":[{"clk":"kdigital_1:excel","k":"excel","u":""},{"clk":"kdigital_1:小米手机","k":"小米手机","u":""},{"clk":"kdigital_1:小米","k":"小米","u":""}],"title":"小米自研新技术落地:能将图片中的表格转化成Excel文件

居咏辉859如何在不同的excel表格里提取数据 -
雷畏萧15872945617 ______ 在表一的B1中输入公式 =VLOOKUP(A1,表二!$A$1:$B$100,2,) 再将该公式下拉填充.

居咏辉859EXCEL中如何在一个表内获取另一个表中的数据 -
雷畏萧15872945617 ______ 利用函数vlookup可以解决这个问题; 比如下图中的数据,查找出工作表“表一”的工号从100到105的“四月成绩”并显示在工作表“表二”的B2到B7单元格. 在“表二”的B2单元格输入公式:=VLOOKUP(A2,表一!$A$1:$E$7,5,0) 按回...

居咏辉859excel跨表提取某字符后面的值? -
雷畏萧15872945617 ______ 就是在你选取的数据的时候,在那个相应的位置提取一下就可以了,某行某列的数据直接的引用.

居咏辉859excel表格一个单元格怎么提取另一个表格 -
雷畏萧15872945617 ______ 你想说的事一个单元格值引用另一个单元格.公式输入=符号后直接点击引用你想要的单元格(可以是其它子表的单元格也可以是其它工作薄的). 例:=A1 '即当前单元格值等于引用A1单元格值(可变) =A1+B1 '即当前单元格值等于A1单元格值+B1单元格值

居咏辉859两张不同的Excel表如何实现对应关系,要具体的操作步骤 -
雷畏萧15872945617 ______ 用vlookup()表1的c2=vlookup(a2,表2!a2:c10,3,0)然后下向拉就可以了

居咏辉859多个电子表格间进行比较,并能提取对应的数值,用什么方法能够做到?(不用编程) -
雷畏萧15872945617 ______ 使用vlookup函数吧.07或10版excel:在表A中的B2输入函数:=iferror(vlookup(A2,[表B.xlsx]sheet1!A:B,2,0),""), 下拉复制公式...

居咏辉859EXCEL跨工作表取数据如何操作? -
雷畏萧15872945617 ______ 编号是否都在A列,数据在B列,则在表二的B2输入=VLOOKUP(A2,Sheet1!A:B,2,0)回车后下拉到你所需要的地方试试看,效果如何

居咏辉859Excel跨工作表取值
雷畏萧15872945617 ______ 比如在SHEET1中要引用SHEET2中E列 =Sheet2!E:E 就可以了 不再同意工作簿中就用如下方法引用: [C:\book.xls]Sheet2!E:E ----------------问题补充 =INDIRECT("Sheet2!E:E") 相对引用

居咏辉859怎样从一个固定的EXCEL表格中,提取相应的数据,形成一个新的EXCEL表格 -
雷畏萧15872945617 ______ 1.建议你可以另外设定一个表.然后用Vlookup函数,将你需要的资料依照你设定的顺序填进去.然后使用筛选功能,就可以依照你的要求进行制定了.2...

居咏辉859EXCEL怎么样跨表提取同一个人的信息 -
雷畏萧15872945617 ______ B2: =text(index(Sheet1!B:B,small(if(sheet1!$A$1:$A$1000=$A$2),row($A$1:$A$1000),4^8),row(A1))),"m月d日")&"" 按Ctrl+Shift+Enter 结束公式 下拉 C2: =index(Sheet1!C:C,small(if(sheet1!$A$1:$A$1000=$A$2),row($A$1:$A$1000),4^8),row(A1)))&"" 按Ctrl+Shift+Enter 结束公式 下拉

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024