kj02本港台现场报码

数据仓库合作心得:埋点与上报(1)www.644922.c

添加时间:2019-10-23

  与数据仓库合作近一年,爱恨情仇不必说,本文仅复盘整理所学所得,希望我与读者能从中得到收获与启发。

  与数据仓库合作近一年,爱恨情仇不必说,本文仅复盘整理所学所得,希望我与读者能从中得到收获与启发。

  先谈谈埋点吧——用户行为分析的数据来源(通俗些就是格式化,以表格形式展示的目标日志数据)。

  战士上战场,莫得子弹 就是一个死——分析者是战士,数据就是子弹,埋点就像制造子弹的机床。

  就我所知,目前大部分企业获取用户行为大数据最好的方式就是在各终端设置埋点。目前使用的是全埋点的策略——也就是终端框架内,所有可交互的元素在触发时都会被采集。

  采集元素目前主要分为四大类:页面采集(Page)[弹窗的弹出也可以归类为页面元素上报]、按钮采集(Button)、输入框采集(Input)、列表曝光采集(Expose)。

  所有希望数据入库的事业部,必须严格按照上报入库流程与格式,传入数据,并给出相应注释。

  这是目前整个大数据侧埋点入库的基本框架,他对所有事业部都一视同仁,保证了行为数据入库的规则性(觉得此处用“规范”,力度欠缺)。

  规则性这个定义,在我的职业(还有学习,生活)生涯中真的很重要,很重要,很重要。特别是对数仓这样一个承载各方海量数据,且经常出现跨系统关联的载体来说,增加龋齿风险。港最快开奖现场2019结果!严格遵循入库规则是重中之重,否则就是一场灾难。

  用户每打开新页面都会上报一次页面访问记录(重新打开同一页面也会再次上报)。该条记录上报的内容是前端预先设定(有上报需求来源于业务侧),通常由页面上报名称和其它通用上报字段组成。通用上报字段因为是共有字段,我们最后一起说。来看看页面上报名称的设计,我的心得是:千万!不要!让前端自己决定! 如果你希望你的数据来源一团浆糊 Whatever

  用户每点击一个按钮都会上报一个按钮点击记录。该条记录上报的内容是前端预先设定(有上报需求来源于业务侧),通常由页面上报名称和其它通用上报字段组成。www.644922.com

  定义:B业务线下,按钮上报类,{商品类,功能类,对外导流类 三种按钮类型 选其一},按钮嵌在A列表的第二个位置(智能推荐,千人千面,此处仅代表单个用户的情形),按钮的产品号。

  记录用户在文本框输入的任何信息和动作。包括你与意中人交流时时,反复斟酌句读,辞藻,踌躇犹豫的矛盾心理,在此处都能记录得明明白白。

  输入框上报结构:1:我稀饭你很久噜,做我女朋友中不 /2:我稀饭你很久噜 /3:一起吃个饭吧 / 4:你在做什么?你到家了嘛

  ——直男聊天案例 定义:首先输入了1,删除部分输入后到2,增加输入到3,4等等。

  连带你的初始输入,删除,撤回……曲折的心路历程还有总输入时间,都会被记录且细化到毫秒级。所以不要再质疑企业能获取你的生日/身份证号/密码等信息,数据安全真的全靠自觉(以及草票)。

  简单讲就是给用户看到了哪些元素。因为智能匹配或着死规则匹配的普及。每个分类的客户都会被给到企业认为合适的行为路径(哪一类的用户被推荐哪一类的产品,跳转哪一个页面早已被商家安排的明明白白 )。

  定义:页面下曝光了哪些列表,这些列表中又展示了哪些按钮元素,分别在第n个位置。

  能采集到的东西肯定不限于此(Other),终端位置,APP版本,终端内其它APP。。。只有你想不到~

  这个业务侧可以根据业务需求增加多个,个性化很强的上报,放在同一个json格式的字段即可。

  tips:上面说的一些东西应该是对大数据自研比较看重的公司,才会考虑到的事情,使用三方BI服务或者对数据监控,分析要求一般的企业may不用care这个。

  夹个How much:因为成本贼高,真正开始为业务赋能和变现,需要一定时间(与人才、投入等因素相关)的迭代才能走上正轨。

  目前的发展态势是业务方对数据的需要量越来越大,品类越来越多,追溯的时间越来越长。如果你要求后端同学把每天上千万条(勿杠)的用户记录存在MYSQL库中,且需要保存三年以上,不仅你的线上会土崩瓦解,开发同学也会砍死你。恰巧数仓放得下。它能相对精准,尽可能长的存贮所有数据(有价值,无价值,还未被意识到有价值)成为企业的数据资源,为业务赋能,数据分析、挖掘提供数据基础。

  格式化的存贮并展现海量数据,并明确数据与数据之间,表与表之间的关联血缘。同一个商品的进出货,成本,利润,物流,评价,购买者,购买者的年龄,爱好,收入以及他的前世今生,如果设计有度,理论上都是能够实现的。

  不管是SQL还是成熟的 数据产品,都可以高效率高指向性的获取所需要数据,取数或者做报表(数据可视化应该也算报表,虽然不太想承认)

  (1)打通跨部门,业务线的数据通道,避免数据孤岛的形成。——多部门结合用户上下游数据,进行数据分析或流量分发,共享时需要用户完整的行为路径、标签等数据。如果从一开始就有相同的或相近的上报规则,后面的方案实施水到渠成。

  (2)统一上报规范,避免重复造轮子,以及混乱数据造成的资源紧张。—— 一个上报大类只需要设计一个表结构,明确且只需用户付出一次认知成本,维护成本也很有限。如果n个业务部有n个页面上报,如果大数据侧有一个需求迭代,就需要改五次。

  (3)尽可能保证上报数据的纯净,易识别,边界明确易获取。——不管是使用SQL还是代码获取数据,本质上都是挑选符合规则(呵 规则又出现了)的数据,结构化输出。

  直接举个栗子:运营侧统计的日活和产品侧统计的日活,最后结果相差颇大。细查发现是查了两张不同的表,数据差异其实是合理的,但按理说:两者差异最起码应该小于3%。细细查发现,指标口径定义会有些许差异,一方定义了已注册用户的独立用户号User_id,一方统计了独立设备号Device_id,因为部分业务并非强登录,所以结果相差颇大。

  所以同一个指标名称,同一个指标定义,同一个取数逻辑这样就不会被发现出了纰漏了。


友情链接:
Copyright 2018-2021 本港台直播报码室 版权所有,未经授权,禁止转载。
香港马会开奖资料| 开奖直播| 今晚六合开奖结果| 黄大仙救世网正版网站| 白姐平特一肖| 王中王今晚开什么码| 跑码场开奖现场直播| 香港品特轩心水论坛| 八马论坛| 香港马会资料| www.55496.com| 六合开奖结果|