大规模流量数据中重基数的发现与在异常侦测中的应用
就是我 2015 年在创宇时做一个流计算需求时想做的东西。
用 count-min sketch 的方式将一个键哈希到多个 HyperLogLog 处,把其下事件放进 HyperLogLog。
统计时各 HyperLogLog 对应桶先取最小,再一起估算基数。
以此估算一个大数据环境下事件基数最多的键。
Page Not Found
Try to search through the entire repo.
就是我 2015 年在创宇时做一个流计算需求时想做的东西。
用 count-min sketch 的方式将一个键哈希到多个 HyperLogLog 处,把其下事件放进 HyperLogLog。
统计时各 HyperLogLog 对应桶先取最小,再一起估算基数。
以此估算一个大数据环境下事件基数最多的键。
Try to search through the entire repo.