当前位置:经济频道首页 > 国内经济新闻 > 正文

航空公司与爬虫的战争:特价票的真相与内幕(4)

2017-07-04 17:46:55    未知  参与评论()人

抽丝剥茧看爬虫

爬虫绕开技术层出不穷,防爬虫的技术也日新月异,风险黑名单可能是大多风控部门采用的方式,这种存在一定局限性,从行为轨迹和用户画像角度出发一定是风控的大趋势。

针对航司的爬虫,需求表明目前最迫切的是防止黑代理将IP分散到世界各地绕开访问频率的监控,我们必须增加更多途径实时访问流量中获得更多有价值信息。(前提:一定不允许在 APP 、Web 中增加代码,大型企业对这些非常看重)。

01访问元素丰富度

普通用户在打开网页时会有比较丰富的地址访问,而自动爬虫通常只有少数固定的页面访问,比如航司活动专版、舱位价格页面、航线动态等。

图为岂安科技风控产品监控界面

02访问轨迹连贯性

用户在进行页面访问时,通常是有一个合理的访问轨迹,如从首页跳转到机票搜索,但爬虫在自动获取数据时,往往是对页面地址进行逐个访问,没有连贯的轨迹。比如首次访问就是登录页面,正常应该从搜索或者广告页跳转而来。

03访问静态资源比例

爬虫获取数据时往往只关心具体的文字内容和数据,但不会查看图片以及加载页面上的 CSS 或者 JS 信息,这就为风控平台提供了一个较为显著的判断因素,这一点不用多加解释。

04Click 间隔时间

爬虫在获取页面信息时,会出现连续两个 Click 间隔时间过短,不匹配合理的人肉点击间隔时间,这就是典型的区别人机判断机制。

篇幅有限,仅仅列出以上这些在航司常出现的风险特征。