k-means聚类分析步骤

首页 >> 正文

k-means聚类分析步骤

来源：baiyundou.net 日期：2024-09-21

永洪科技技术

该技术由永洪科技投递并参与“数据猿年度金猿策划活动——2023大数据产业年度创新技术突破榜单及奖项”评选。

根据数据查询路径查询目标任务数据的数据索引信息，对数据索引信息进行特征提取，得到特征信息集合；将特征信息集合输入聚类模型进行特征聚类，得到目标聚类结果；根据目标聚类结果构建距离数据离散分布图，根据距离数据离散分布图判断数据索引信息是否存在异常，得到数据异常判断结果；根据数据异常判断结果确定对应的异常索引节点；根据数据库组织信息，对异常索引节点进行数据库异常根因分析，生成目标任务数据对应的根因分析结果。

技术说明

本次申报的技术涉及一种数据查询与分析方法、装置、设备及存储介质，主要关注大数据技术领域。其解决的关键问题在于提高数据查询的准确率以及数据索引的异常分析准确率，通过对索引特征信息的聚类分析实现了对目标任务数据的根因分析。结合专利描述和实际技术设计，对关键性技术的总结说明如下：

1、背景技术与问题陈述：本发明背景技术指出随着计算机的普及，数据由纸质文件转为电子媒体，形成数据库。然而，现有的数据查询方案存在准确率低的问题，特别是对于复杂的SQL指令，更容易导致异常分析的准确率下降。

2、本技术的核心创新点有以下几个方面：

① 路径解析与数据检索：通过对数据查询路径进行解析，获取目标任务数据，并提取数据索引信息。这一步骤有助于理解查询的上下文，为后续的特征提取提供基础。

② 特征提取与向量编码：在获取目标任务数据的数据索引信息后，进行特征提取，包括索引类型、多个索引节点、索引时长以及索引字段等。这些特征信息被编码成特征信息向量，为后续聚类提供输入。

③ 特征聚类与距离分布图：将特征信息向量输入预置的聚类模型，得到目标聚类结果。根据聚类结果计算目标距离数据集合，构建距离数据离散分布图。这一步骤利用聚类信息和距离数据来判断数据索引信息是否异常。

④ 异常索引节点匹配与数据库根因分析：在判断数据索引信息存在异常后，确定异常索引信息，进而匹配目标任务数据对应的异常索引节点。最后，根据数据库组织信息进行数据库异常根因分析，生成目标任务数据的根因分析结果。

3、实施方式：本技术发明提供了多个实施方式，但都涵盖了路径解析、特征提取与向量编码、聚类分析、距离数据分布图构建、异常判断等几个步骤，具体参考下图1进行实施。

图1 工作流程图

4、创新意义：本技术发明的创新意义主要体现在提高数据查询的准确率和数据索引的异常分析准确率上。通过聚类分析数据索引的特征信息，能够更准确地判断索引信息是否异常，从而实现对目标任务数据的根因分析。这对于大数据环境下的数据管理和异常检测、性能检测等具有重要意义。

5、应用价值：本发明的应用价值在于通过创新设计的数据查询与分析方法，可以实现对数据索引信息的异常分析和目标任务数据的根因分析，提高数据查询的效率和准确性，尤其在大数据环境下，对异常数据的准确分析有助于优化数据管理和决策过程。此技术可以广泛应用于数据库管理系统、数据分析平台等领域，提高数据处理的智能性和精确性，有望在未来的数据科学和数据库管理领域得到广泛应用。

6、未来发展方向：未来可以进一步优化特征设计和聚类模型，提高其对不同数据结构和查询模式的适应性。另外，结合深度学习及LLM大模型技术的方法，可进一步提高对异常数据的识别、分析、解释能力，使系统更具智能化。

★专利申请号/公开号：CN 115905373 A

开发团队

·带队负责人姓名：马云 Humming Ma

马云，毕业于北京邮电大学，拥有15年商业智能产品研发、质量保证等工作经验，曾在知名BI公司担任团队领导人，完成了多个版本的研发任务。主要研发方向包括：云计算框架，图表引擎，数据展现，数据处理，数据输出，系统优化等等。

团队其他重要成员姓名：孙丰、王笑晨

·隶属机构：永洪科技

永洪科技成立于2012年，致力于为全球企业提供大数据BI技术产品及服务，依托自主知识产权的一站式大数据BI平台，具备从数据应用方案咨询、数据治理、数据仓库建设、数据可视化分析、数据深度应用到数据平台实施运维服务的端到端大数据价值服务能力。

管理团队拥有世界500强企业或世界顶级大数据企业10年以上从业经历，曾多次获得国际大奖，包括Java One大奖、软件界的奥斯卡大奖JDJ读者奖等。永洪BI拥有分布式计算、分布式存储、分布式通信、云计算、数据处理、数据展现等多项技术专利。产品足以比肩国际同类产品，并在高性能、易用性、AI深度分析等方面形成独特优势。

拥有1000+家合作伙伴，包括腾讯、华为、用友等战略合作伙伴；10000+家企业客户，包括中国银行、招商银行、华泰证券、国家电网、中国移动、家乐福、美的、格力、北京汽车、科技部、海关总署、中国人民警察大学等，涵盖了金融、制造、零售、能源、政府、教育等近20个产业，并在金融、制造领域的市场占有率第一。

相关评价

拥有数据查询自主专利技术的永洪BI，操作起来十分方便，在数据查询性能上十分高效快捷。同时又支持自助式分析，只需点击拖拽几下分析指标，系统就会自动分析报表，这极大地方便了该行没有那些技术背景的业务人员和运营人员独立自主的完成大数据分析操作，让决策者的任意需求都可以在一天内实现。

——某银行
IT科技部张新生

永洪BI运用其团队研发的高性能数据查询专利技术，很好地解决了企业大数据应用的效率问题，海量数据可以轻松查询响应，并且开发与实施周期短，效率高，报表灵活，能够满足复杂的大数据应用，能够快速响应业务的需求。

——某制造行业
营销信息化负责人吴德欣

","gnid":"9901b0756c6a4ade2","img_data":[{"flag":2,"img":[{"desc":"","height":"459","title":"","url":"https://p0.ssl.img.360kuai.com/t019bef7814c2211a2e.png","width":"1080"},{"desc":"","height":"704","title":"","url":"https://p0.ssl.img.360kuai.com/t015a67867956dd45bd.png","width":"710"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1704293833000,"pure":"","rawurl":"http://zm.news.so.com/7c21db7f571a0a6492ec8cabf5cf62cd","redirect":0,"rptid":"3d0a998c0f835b14","rss_ext":[],"s":"t","src":"数据猿","tag":[{"clk":"ktechnology_1:大数据","k":"大数据","u":""}],"title":"【金猿技术展】一种数据查询以及分析方法、装置、设备及存储介质

冶婷世1877k - means聚类算法一定要指定聚类个数吗 -
东莫雨19638158451 ______ 其实我猜你想问的是怎么改进k-means算法,可以摆脱手工指定k值.实质上通过算距离达到聚类的算法是必须要手工指定一个值的,也就是说需要一个参照.不需要制定聚类个数的聚类算法,例如:DBSCAN

冶婷世1877spss软件做K - Means Cluster聚类分析的详细操作过程,越清楚越好,急需! -
东莫雨19638158451 ______ 打开数据文件后Analyze--classify---K-means cluster 命令,选择需要聚类的变量到Variables,选择一个标记变量到label case by 中,在number of Cludter小框中指定聚类数.单击ok即可.

冶婷世1877简述k - Means算法计算过程. - 上学吧
东莫雨19638158451 ______ K-MEANS算法是输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准的k个聚类. 中文名 K-均值算法包括输入聚类个数k 以及包含 n个数据对象的数据库目的输出满足方差最小标准的k个聚类目录 1 基本简介 2 处理流程 ▪ k-means 算法基本步骤 ▪ 算法分析和评价 3 实现方法基本简介编辑 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小.聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的.

冶婷世1877means怎么样确认聚类数?k - means怎么样确认聚类数目
东莫雨19638158451 ______ 试.从1开始往上试.error应该会越来越小,但相连2次之间的差距也会越来越小.你自己设一个参数,2次之间的差距小于这个数,就认为不变了.这个位置叫做knee,就用它做聚类数目. 如果嫌烦的话就自己猜一个.

冶婷世1877基于Canopy Method的聚类算法将聚类过程分为哪两个阶段? -
东莫雨19638158451 ______ Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,...

冶婷世1877python 怎么可视化聚类的结果 -
东莫雨19638158451 ______ 、K均值聚类 K-Means算法思想简单,效果却很好,是最有名的聚类算法.聚类算法的步骤如下: 1:初始化K个样本作为初始聚类中心; 2:计算每个样本点到K个中心的距离,选择最近的中心作为其分类,直到所有样本点分类完毕; 3:分别计算K个类中所有样本的质心,作为新的中心点,完成一轮迭代. 通常的迭代结束条件为新的质心与之前的质心偏移值小于一

冶婷世1877sas k - means聚类编程 -
东莫雨19638158451 ______ proc fastclus data=sashelp.iris maxc=2 maxiter=10 out=clus; var SepalLength SepalWidth PetalLength PetalWidth; run;

（编辑：自媒体）