首页 >>  正文

hive+apache

来源:baiyundou.net   日期:2024-08-04

在日常生活中,我们常常会接到来自各个平台或者商家的推销电话,我们的个人隐私数据是如何被用于电销?本文对此进行探讨,揭秘当中的流程。

白话模式:

场景:小明浏览某消费金融APP后接到推销电话。

推销:您好,小明先生您是我司的尊贵客户,赠送您分期购物利息6折优惠券一张。

小明:咦,你怎么知道我要分期买手机的。

推销:您浏览了几款我们平台最热销的手机,系统自动向您推送的优惠券,我们只是告知一下您以免错过优惠。

小明:啊这…

黑话模式:

普通人以为的给用户打营销电话,可能是这样的:

  • 拿着一个纸质号码簿,或者一个excel表,或者对着手机通讯录
  • 人工挨个拨打,人工记录拨打情况

产品经理等业内人士操盘的的给用户打营销电话,其实是这样的:

  1. 系统自动从数据库中筛选合格的数据
  2. 数据脱敏(只显示前三后四)后推送给电销系统
  3. AI语音机器人按照规定的话术与客户进行沟通(有点像电影《孤注一掷》中的情节),标注用户转化潜力,并给出后续跟进的建议
  4. 系统自动进行录音和数据上传
  5. 电销人员再次与高潜客户沟通

抛开黑产非法窃取用户隐私信息这种情况不论,合规经营的互联网公司,数据工作是分成【数据指标维护】【数据埋点上报】【数据仓库】【数据平台】几个关键环节来展开的:

一、数据指标维护

任何数据埋点和上报,一定是围绕着后续的数据分析工作来进行的,而要做好数据分析,首先就要定义并维护数据指标。

常见的数据指标有三类:

第一类:流量指标

互联网产品关注的流量指标都类似,主要包括:

PV、UV 、跳出率、停留时长、活跃(日活、周活、月活)、留存率(次日留存、7日留存、月留存)等。

第二类:转化指标

因行业、公司、产品不同而各有侧重,以分期电商产品为例,典型指标有:申请授信-风控批核率、授信-订单转化率、连单率、复购率、退货率等。

第三类:业务指标

因行业、公司、产品不同而各有侧重,以分期电商产品为例,典型指标有:总授信额度、人均授信额度、额度使用率、客单价、坏账率、运营费用率、资金成本率等。

二、数据埋点与上报

数据埋点是指基于业务或产品需求,对每一个用户行为事件对应的位置进行埋点,并通过接口上报埋点的数据。

数据埋点,既可以通过第三方厂商提供的解决方案来实施,也可以由互联网公司自行研发。

第三方数据埋点厂商主要包括友盟、talkingdata、百度云统计、腾讯移动应用统计、神策数据等。

2.1 埋点事件

用户使用互联网产品的每个动作,都可以抽象和建模为一个【事件】,事件又可以细分为【key属性】+【value值】两部分。

比如浏览APP首页这个事件的抽象和建模:

key=【APP版本号+用户信息+页面信息】

value=【APP4.5版本+用户ID20231101+页面IDhomepage001】

2.2 埋点分类

根据数据埋点上报的位置不同,数据埋点分为前端埋点和后端埋点两种。

前端埋点:

适用于常见的浏览、点击行为,也叫点击流埋点,优点在于能收集全面、精细的用户行为。

缺点是APP客户端发版更新埋点后,会存在部分用户未更新APP的情况,影响数据质量。

用户在App中浏览首页,点击特定按钮时,客户端记录相关信息(时间、页面ID、按钮ID、用户ID等),并通过接口发送到服务端,这就是典型的前端埋点和上报。

后端埋点:

则是将用户与服务端的交互记录进行上报,主要适用于非点击行为。

后端埋点优点在于可实时采集数据,数据准确,且支持与用户身份信息、行为信息等属性信息深度整合;缺点在于代码埋点流程涉及多方协作,效率较低。

消费金融行业风控所需的获取AppList并上报,就是典型的后台埋点。后台通常会在用户行为(如安装app时同意隐私协议)触发获取AppList时,记录相关信息(如时间、设备信息、用户ID、Applist等),并将其上报给服务器。

本文开始的案例中,用户小明之所以收到营销电话,就是因为在注册时他同意了注册协议(其中含有授权平台获取、使用手机号的条款),后台因此记录用户的手机号、位置信息、设备信息,上报给服务器,并同步给电销系统。

电销系统中手机号码,后续的跟进,一般是AI外呼机器人先做一轮拨打和数据标注,筛选初优先级的高中低档,再交给人工,按照优先级进行外呼。

看到这里,读者们可能会心里一惊,互联网上原来这么没有隐私,难怪那么多电信诈骗,我天……

实际上的情况,比大家想象中有更糟糕的一面,也有在好转的一面。

糟糕的地方在于–网络黑产–这个群体会通过各种非法手段,获取、倒买倒卖个人信息,然后进行电信诈骗等非法行为。这些行为很多并不发生在我国境内,而是在境外比如缅北…这也是为什么我国要打击电信诈骗,并且由国家出面教缅北的老(jun)板(fa)们怎么体面做生意。

好转的一面在于,对于这种虽经过用户授权同意,但是仍然或多或少骚扰用户的营销行为(业界称为网络灰产),国家陆续颁布了多部旨在保护个人隐私数据的法律法规,要求互联网公司用更加醒目、更加明确可感知的方式告诉用户平台将会如何采集使用个人信息。

相信很多读者在日常使用微信小程序时都有收到过这种请求权限提示。而且,不只是位置权限,功能消息通知权限、营销消息通知权限现在也成了标配。

三、数据仓库

数据仓库可以理解为一种新型的数据库,可以容纳更多的数据、更加庞大的数据集。

数据仓库通常用于存储和分析来自多数据源的业务数据,侧重查询和分析而不是数据处理。

数据仓库的常见应用场景有:

  • 客户数据管理:包括用户行为、消费记录、标签、画像、偏好、会员等级、积分、权益等。
  • 电商运营:包括会员数据、商品数据、销售数据、营销数据、商家数据、库存数据等。
  • 风险管理:对客户进行信用评级、对风控策略进行建模和分析、对资产进行分类等。

数据仓库常见解决方案提供商有:

  • Oracle:Oracle是全球最大的企业级软件公司之一,其数据仓库解决方案基于Oracle数据库,支持各种数据类型和大规模数据处理,同时提供了丰富的ETL和报表分析工具
  • Microsoft:Microsoft的数据仓库解决方案基于SQL Server数据库,具有易用性和可伸缩性,适用于各种规模的企业
  • IBM:IBM的数据仓库解决方案基于DB2数据库,提供了一系列企业级的数据仓库和数据分析工具
  • Sybase:Sybase的数据仓库解决方案可以提供面向不同行业(电信、金融、保险和医疗保健)的客户关系管理产品
  • SAP:SAP的数据仓库解决方案基于SAP HANA数据库,支持实时分析和预测,适用于各种行业的业务。
  • Teradata:Teradata是一家专门从事数据仓库和商业智能的高端供应商,其数据仓库解决方案具有高性能、可伸缩性和可靠性。
  • Apache Hive:Apache Hive是一个开源的数据仓库工具,可以提供数据汇总、查询和分析的功能,适用于大规模的数据处理和分析。

笔者所在公司,目前使用的就是Hive作为数据仓库工具。

四、数据平台

数据平台的基本功能主要包括数据采集、数据存储和处理、数据分析三个方面,与互联网产品经理日常工作相关的主要是数据分析相关的功能。

数据报表report平台和商业智能BI平台都是企业中常用的数据分析工具,它们在功能和应用场景上有所不同:

4.1 数据报表report平台

数据报表report平台提供的是类似excel表格的数据字段展示,数据分析师、产品经理、运营等岗位的同事,可以从系统中导出明细,做进一步的分析。

虽然展示出来的内容不够可视化,但是因为性能更好,数据维度更加丰富,实际工作中,运用的反而比下文要介绍的商业智能BI平台、数据驾驶舱更加广泛。

4.2 商业智能BI平台

商业智能BI平台通常提供更加可视化展示的数据应用,可以快速地从不同业务系统中抽取和整合数据,并利用多维分析工具对数据进行深入分析和挖掘。

商业智能BI平台还可以通过可视化工具,将数据以图表、仪表板等形式展示出来,方便公司一线的业务、产品、研发人员更好地理解数据和做出决策。

4.3 数据驾驶舱

数据驾驶舱是一个比喻性的术语,指的是一个集成和可视化展示数据的仪表板或控制台。这个仪表板或控制台可以展示各种数据源的信息,帮助公司创始人、高层更好地理解和分析数据,以支持决策和监测业务运营情况。

数据驾驶舱通常以图表、图形、指标和报表等形式呈现关键数据,可以从多个数据源中获取数据,并将数据集成到统一的界面中,使用户可以一目了然地了解数据的整体情况。

因为主要面向高管和商务场合,通常,数据驾驶舱的视觉效果都更有科技感,但底层的数据源与report、BI是一样的,在数据可视化的功能上与BI的实现方式也类似,主要是数据指标更偏向宏观层面。

写在最后

在用户授权的情况下,对用户进行适当的电话营销,本身无可厚非。但前提必须是在用户充分知悉的情况下,进行的授权。否则,走灰色地带,不尊重用户隐私的互联网产品,也不会得到用户真正的认可。

至于倒买倒卖用户隐私数据,用于牟利,则是触犯刑法的黑产行为,作为互联网行业从业人员,该有的底线不能突破,对这种行为要坚决说不,职业生涯才能行稳致远。

作者:田清;公众号:艾仑田

本文由@艾仑田 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

","gnid":"986a4bf9c6ae0d6fa","img_data":[{"flag":2,"img":[{"desc":"","height":"420","title":"","url":"https://p0.ssl.img.360kuai.com/t012bb083c9b61b71c7.jpg","width":"900"},{"desc":"","height":"1334","title":"","url":"https://p0.ssl.img.360kuai.com/t01c31162edfb093934.jpg","width":"750"},{"desc":"","height":"543","title":"","url":"https://p0.ssl.img.360kuai.com/t01cb7c6f8db51e3ac6.jpg","width":"1013"},{"desc":"","height":"733","title":"","url":"https://p0.ssl.img.360kuai.com/t019aa3c214c129068f.jpg","width":"1004"},{"desc":"","height":"573","title":"","url":"https://p0.ssl.img.360kuai.com/t01539de5bb5c22e7ba.jpg","width":"1014"}]}],"original":0,"pat":"jmc,art_src_3,disu_label,fts0,sts0","powerby":"pika","pub_time":1704006300000,"pure":"","rawurl":"http://zm.news.so.com/68101af338202577dc462f186369c086","redirect":0,"rptid":"fc4f3d043c7429fd","rss_ext":[],"s":"t","src":"人人都是产品经理","tag":[],"title":"解密个人隐私数据如何被用于电销

廖胖章3035如何在Hive中使用Json格式数据 -
樊浅莲15216583029 ______ Hive中有自带函数get_json_object来解析json字符串数据.

廖胖章3035如何将hive的结果写入mysql -
樊浅莲15216583029 ______ 大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中7a686964616fe4b893e5b19e31333361306462,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中.今天同事给推荐了一个利用udf函...

廖胖章3035如何在hadoop下连接hive -
樊浅莲15216583029 ______ 通过JDBC连接 或是 HiveConf conf = new HiveConf(); conf.addResource(new Path("file:///usr/local/apache-hive-0.13.1-bin/conf/hive-site.xml")); conf.addResource(new Path("file:///usr/local/apache-hive-0.13.1-bin/conf/hive-default.xml.template"...

廖胖章3035如何在Java中执行Hive命令或HiveQL -
樊浅莲15216583029 ______ Java在1.5过后提供了ProcessBuilder根据运行时环境启动一个Process调用执行运行时环境下的命令或应用程序(1.5以前使用Runtime),关于ProcessBuilder请参考Java相关文档.调用代码如下:String sql="show tables; select * from test_tb ...

廖胖章3035Hive有哪些支持者和替代品? -
樊浅莲15216583029 ______ Apache Hive社区项目的提交者包括Cloudera,Hortonworks,Facebook,Intel,LinkedIn,Databricks等.Hadoop发行版支持Hive.与Hbase NoSQL数据库一样,它通常作为Hadoop分布式数据处理应用程序的一部分实现.Hive可从Apache Foundation...

廖胖章3035hive0.7.0中,执行 INSERT OVERWRITE TABLE hbase - table - 1 SELECT * FROM pokes;报错 -
樊浅莲15216583029 ______ 可以再/hive/bin目录下输入 hive -hiveconf hive.root.logger=debug,console 然后再输入你报错的hql语句,会有更详细的错误提示,这个调试模式很管用的,希望能帮上.

廖胖章3035如何为sparksql添加hive中支持的而sparksql暂未?
樊浅莲15216583029 ______ 前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章. cloudera manager装好的spark,直接执行spark-shell进入命令行后...

廖胖章3035怎么查看spark与hive集成成功 -
樊浅莲15216583029 ______ Hadoop: hadoop-2.3.0-cdh5.0.0 Hive: apache-hive-0.13.1-bin Spark: spark-1.4.0-bin-hadoop2.3 SparkSQL与Hive的整合 1. 拷贝$HIVE_HOME/conf/hive-site.xml和hive-log4j.properties到 $SPARK_HOME/conf/ 2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加 export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin

廖胖章3035java 怎么查询hive创建spark rdd -
樊浅莲15216583029 ______ 查询hive,返回结果将返回结果放到spark rdd例如: JavaSparkContext sc = new JavaSparkContext(conf); List<Integer> data = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10); JavaRDD<Integer> distData = sc.parallelize(data); 其中data可以视为从hive查询得到

廖胖章3035如何查看hive namespace -
樊浅莲15216583029 ______ 建议你这样试试看: 1. show databases; 请点击输入图片描述 2. 如果不行,可以去掉's'试试,有些好像用的是show database;

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024