抽丝剥茧看爬虫
爬虫绕开技术层出不穷,防爬虫的技术也日新月异,风险黑名单可能是大多风控部门采用的方式,这种存在一定局限性,从行为轨迹和用户画像角度出发一定是风控的大趋势。
针对航司的爬虫,需求表明目前最迫切的是防止黑代理将IP分散到世界各地绕开访问频率的监控,我们必须增加更多途径实时访问流量中获得更多有价值信息。(前提:一定不允许在 APP 、Web 中增加代码,大型企业对这些非常看重)。
01访问元素丰富度
普通用户在打开网页时会有比较丰富的地址访问,而自动爬虫通常只有少数固定的页面访问,比如航司活动专版、舱位价格页面、航线动态等。
图为岂安科技风控产品监控界面
02访问轨迹连贯性
用户在进行页面访问时,通常是有一个合理的访问轨迹,如从首页跳转到机票搜索,但爬虫在自动获取数据时,往往是对页面地址进行逐个访问,没有连贯的轨迹。比如首次访问就是登录页面,正常应该从搜索或者广告页跳转而来。
03访问静态资源比例
爬虫获取数据时往往只关心具体的文字内容和数据,但不会查看图片以及加载页面上的 CSS 或者 JS 信息,这就为风控平台提供了一个较为显著的判断因素,这一点不用多加解释。
04Click 间隔时间
爬虫在获取页面信息时,会出现连续两个 Click 间隔时间过短,不匹配合理的人肉点击间隔时间,这就是典型的区别人机判断机制。
篇幅有限,仅仅列出以上这些在航司常出现的风险特征。