数据分析&可视化报告(pyspark/redis/flask/echarts/html)
1、PV、UV、VV
- PV(page view):浏览次数 一个人一天访问了10次,就算10次
- UV(unique visitor):访问人数 一天内多少个不同的IP
- 24小时分布图(了解访问习惯)
- 城市分布 通过IP地址映射城市,就可以得到用户地理分布。
- 寻找bot(单个ip的角度) 每天访问次数最多的ip(前1000个),人工判断结合逻辑规则 每天访问次数最多的ip,其访问间隔(更进一步),访问时间(凌晨) 每天访问次数最多的ip,其访问页面(再进一步)
- 访问攻击 通常是固定页面(首页)遭受大量的野蛮访问,最简单有效的办法就是暂时封闭这些访问ip。
- 重要客户 连续多少天连续访问的ip[一个月内超过20天访问]
- 客户的构成 先得到每个ip连续多少天访问,再依据天数得到频次分布。
- 流失预警 在1.7的基础上,得到最近一次访问与当前时间的差值。多少重要客户,已经多久没有来访问了。
2、访问方式(get|post)
3、访问协议分布(http1.11)
4、访问结果(1XX,2XX,3XX,4XX,5XX参考:http请求返回状态码详解.docx)
- 每天访问结果(http状态吗)分布图
- 每天404错误最多的前top100页面
- 每天500错误最多的前top100页面
5、响应时间
- 每天响应时间分布及峰值【服务器每小时处理业务量】每天响应时间分布及峰值【服务器每小时处理业务量】 时间间隔10分钟
- 每天响应时间最长的top100页面【分组求平均值】 人工分析其对应的原因:网络、业务复杂、sql优化、下载资源等
6、流量统计【目前不提供数据】
- 每天的流量分布及峰值每天的流量分布及峰值 时间间隔10分钟
- 每天流量最大的top100页面 人工分析其对应的原因:爬虫、页面复杂(动态加载技术)、下载资源等
7、重要页面
- 最频繁页面top100【访问次数】 代表着最重要的商品或者操作
- 资料文件的统计【固定路径-】 网站资料文件通常都是固定路径,这些下载资源通常很大,所以我们有必要去了解有多少的资源被下载了,假设网站的资源路径为:/PG/download/,那么可以统计该路径的次数,得到每天的走势图,还可以得到热门资源的下载排名top10等。
- 并发访问频率最高页面 以秒为单位,同一页面被不同IP访问的数量,得到最高的并发页面,取前top10
- 新增用户【简单计数】 注册成功页面的次数
- 促销活动的页面 了解促销活动的情况
- 访问来源【非本网站来源】 客户第一次访问之前的访问页面
- 客户是否对比过商品 还是通过之前的访问页面