“爬虫”如何抢低价票？借助超链接信息抓取网页(3)

小大

扫描到手机×

2017-12-27 17:37:58 科技日报参与评论()人

“从技术角度来看，阻击‘爬虫’可以通过网站流量统计系统和服务器访问日志分析系统。”闫怀志说，通过流量统计和日志分析，如果发现单个IP访问、单个session访问、User-Agent信息超出设定的正常频度阈值，则判定该访问为恶意“爬虫”所为，将该“爬虫”的IP列入黑名单以拒绝其后续访问。

再就是设置各种访问验证环节。比如，在可疑IP访问时，返回验证页面，要求访问者通过填写验证码、选取验证图片或者字符等方式实现验证。如果是恶意“爬虫”爬取，显然很难完成上述验证操作，进而可以封锁该“爬虫”的访问，防止其恶意爬取信息。

互联网空间不能有“灰色地带”

当前，云计算、大数据等为代表的新一代信息技术处在高速发展阶段。

“上述新技术如果被非法或者不当应用，则会产生严重的危害。互联网空间安全需要建立健全完善的保护体系，绝不能‘裸奔’。”闫怀志说。

2017年6月1日，我国《网络安全法》正式实施，明确了各方在网络安全保障中的权利与责任。这是中国网络空间治理和法制建设从量变到质变的重要里程碑，这部法律作为依法治网、化解网络风险的法律重器，成为我国互联网在法治轨道上健康运行的重要保障。

然而，目前对于高科技“黄牛”倒票行为，尚未有明确规定，使得恶意爬取信息并不当获利行为处在法律法规监管的“灰色地带”。

闫怀志介绍，国际上，针对“爬虫”应用，专门制订了Robots协议(即“爬虫”协议、网络机器人协议等)。该协议全称为“网络爬虫排除标准”，网站可通过该协议告知“爬虫”可以爬取哪些页面及其信息，不能爬取哪些页面及其信息。该协议作为网站和“爬虫”的沟通方式，用来规范“爬虫”行为，限制不正当竞争。

作为国际互联网界通行的道德规范，该协议的原则是：“爬虫”及搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权；网站有义务保护其使用者的个人信息和隐私不被侵犯。这就规定了爬取者和被爬取者双方的权利和义务。

一位不愿具名的法律专家也表示，“反爬虫”不仅要依靠技术防范和业界自律，还应该通过完善管理和法律法规手段来约束这种行为，尤其是法律手段才能彰显惩治力和震慑力。航空公司也要完善账期管理，不给“爬虫”抢票提供机会。