上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

Akamai:爬虫程序管理的 10 个考量因素(14页).pdf

编号:122922 PDF 14页 6.18MB 下载积分:VIP专享
下载报告请您先登录!

Akamai:爬虫程序管理的 10 个考量因素(14页).pdf

1、电子书爬虫程序管理的 10 个首要考量因素 如果您随机选一个网站探索一番,所发现的结果可能会让您大吃一惊。Akamai 内部研究表明,自动网上机器人(或称爬虫程序)如今已占网站总流量的 30%到 70%之间。简单的统计数据背后,是错综复杂的真相。了解爬虫程序流量是一回事。而懂得怎么应对并且着手去处理,则是另一回事,也更具有挑战性。爬虫程序管理市场是一个不断演变的市场,有很多具有不同规模、经验和能力的供应商。但是,有一点是共同的,那就是营销,人人都说他们能解决您的问题。您需要学会看破营销手段,洞悉每一家供应商真正的能力。就是要不被他人的意见左右,亲自找寻答案。您需要知道如何评估爬虫程序管理解决方

2、案,了解其中的区别对您意味着什么。这也正是本电子书的宗旨所在。请继续阅读。爬虫程序管理的 10 个首要考量因素 哪种爬虫程序管理解决方案更适合您?11.效果 .32.弹性保护 .43.误报 .54.灵活的对策 .65.监测和报告 .76.保护 API .87.本地还是云端 .98.开发费用 .109.网站还是网页 .1110.托管服务 .12做出正确的选择像任何工具一样,合适的爬虫程序管理解决方案是能够完成工作任务的得力工具。它能帮助您实现目标,让您能够支持业务运营,同时有效控制那些让您夜不能寐的不良内容。您要如何才能确切地找到这样一种解决方案,而不用拿您的预算作为赌注,也不用等到一年或者更长

3、时间后才发现所选的解决方案力是否合适?下面是在选择爬虫程序管理解决方案时需要考虑的 10 大首要考量因素。您需要知道如何评估爬虫程序管理解决方案,了解其中的区别对您意味着什么。2有些供应商宣称能检测 99.9%的爬虫程序 听到这种话就可以认定,这只不过是夸张的营销措辞。只要您多想一下,谎言自然不攻自破。如果供应商不能确定他们能检测 100%的爬虫程序,那么又如何知道自己所检测到的爬虫程序占比 99.9%呢?如果供应商真的确切地了解 100%的爬虫程序生态环境,那怎么可能只能检测出其中的 99.9%?所有此类解决方案都能检测爬虫程序,问题是,检测的比例能达到多少。因为爬虫程序一直在变化,所以无法

4、客观地测评解决方案的效果。但您可以测评所检测的爬虫程序的复杂性。您可以了解爬虫程序的发展形势,掌握有关各种爬虫程序检测技术及其比较方法的知识。确保您所考虑采用的解决方案能够检测到您可能会见到的最复杂爬虫程序。考量因素:了解解决方案采用的是哪些爬虫程序检测技术、这些技术的复杂程度以及大致可以期待其提供怎样的成效。并非所有的技术实现方法都是相同的。比较市场上类似的解决方案,了解它们在您的具体环境中表现如何。像攻击者那样思考如今有没有攻击工具能够避开一款解决方案的检测?如果有,那么这款解决方案可能就不够好。1.效果爬虫程序管理的 10 个首要考量因素 确保您所考虑采用的解决方案能够检测到您可能会见到

5、的最复杂爬虫程序。3在您拦截掉一款爬虫程序时,它并不会彻底消失。它随时都会回来,而且还会发生变异,企图躲避您的检测。多数爬虫程序管理解决方案最开始都能检测出爬虫程序(至少其中的一部分),但随着爬虫程序开始发生变异,它们的检测能力就会大打折扣。确保您选择的解决方案能够随着时间推移不断学习和发展,以长期、持续帮助您解决问题。考量因素:寻找采用最复杂爬虫程序检测技术(如用户行为分析)的解决方案。这些解决方案将随着爬虫程序的变异在更长时间里保持效力。请已部署该解决方案的其他客户提供证明或参考,了解其能否长时间保持效力。2.弹性保护多数爬虫程序管理解决方案最开始都能检测出爬虫程序,但随着爬虫程序开始发生

6、变异,它们的检测能力就会大打折扣。4爬虫程序管理的 10 个首要考量因素 当爬虫程序管理解决方案声称它阻止了爬虫程序时,如何才能确定系统阻止的确实是爬虫程序而不是合法用户?很多供应商出手很快,对误报相当宽松。对一些供应商来说,能够向客户表明他们阻止了很多“爬虫程序”,比确保他们没有阻止有效流量(对公司有价值的人类行为或“良性”爬虫程序)要更加重要。但您希望的是在不妨碍业务运营的情况下解决爬虫程序问题。您需要相信,与您合作的供应商也非常关心准确性及误报的影响。考量因素:供应商是将调整误报的任务留给您处理,还是会努力最大限度地降低误报?供应商是否建议使用验证码?这通常将一家供应商的无能暴露无疑。虽

7、然用户不喜欢验证码,但是,供应商提供验证码要比调整规则以最大限度降低误报来得容易。您能否察明该解决方案为什么将某个请求标记为来自爬虫程序?解决方案是否根本就是一个黑箱?确保解决方案能够具体查看各个请求,从而验证所采取的对策。3.误报您希望在不妨碍业务运营的情况下解决爬虫程序问题。5爬虫程序管理的 10 个首要考量因素 大多数爬虫程序管理解决方案对问题采取安全措施。它们假设所有爬虫程序都是恶意的,所以应进行阻拦,但那些已知是良性的爬虫程序除外(您必须将它们明确加入到白名单中)。但如果“良性”爬虫程序也会破坏网站性能,该怎么办?或者,出现新的客户服务,让您的客户以不同的新方法与您联系,又会怎么样呢

8、?事实是爬虫程序表现为各种形态和规模,对您的影响很少是清晰分明的。即便是“良性”爬虫程序,可能也会随着运行时间的不同而对您的业务产生不同的影响。在处理爬虫程序时,需要根据爬虫程序对于您业务和 IT 方面的影响,对不同类型的爬虫程序灵活采取不同对策,特别是它们的影响随位置、时间或季节性而不同时。考量因素:该解决方案能让您为不同类型的爬虫程序创建不同的类别,还是只区分好坏?该解决方案支持哪些类型的对策?只有阻挡和验证码?还是支持有助于更好地进行流量整型的高级对策(如限速和提供替代内容)?该解决方案对于管理您见到的不同爬虫程序有多灵活?是再次一概而论?还是根据时间、按流量百分比或按URL准确地采取对

9、策?4.灵活的对策爬虫程序表现为各种形态和规模,对您的影响很少是清晰 分明的。6爬虫程序管理的 10 个首要考量因素 每种爬虫程序管理解决方案都能为您显示对爬虫程序流量的概要统计数据,但您需要的不止是这些。在进行基础设施规划或向您的管理层上报时,尤其适合使用概要统计数据,但这些数据无法提供分析爬虫程序流量所需要的详细信息。同样也无法提供所需的证据,让您可以确信该解决方案采取了正确的对策。对于能阻挡用户的解决方案来说,您不想要一个黑箱。您需要一种能为您提供详细报告信息的解决方案,以帮助您支持业务运营并加快获取洞察的速度。考量因素:该解决方案是否提供一定的报告功能,让您能够仔细审视特定的爬虫程序、

10、僵尸网络或爬虫程序特征?您能否调查流量猛增现象并查看个别请求?有时,您需要查看请求详细信息才能知道怎么办。报告机制与其他安全解决方案的报告机制有什么样的关联?能否全盘分析流量,还是要分别在不同的控制面板中分析?5.监测和报告对于能阻挡用户的解决方案来说,您不想要 一个黑箱。7爬虫程序管理的 10 个首要考量因素 无论供应商或解决方案,当今市面上比较高级的爬虫程序检测技术都依赖于注入 JavaScript 代码并分析客户端响应。但是,如果基于 API 的客户端对 JavaScript 没有响应,您要怎么处理您的 API?如果您需要公开 API 来支持移动应用程序或其他第三方,那么就需要一个能帮助

11、您像保护网页一样保护 API 的解决方案。否则,您的爬虫程序(和爬虫程序问题)只是从网页迁移到 API 而已。考量因素:供应商为API提供何种保护?只是定额管理和速率限制吗?寻找能将供应商的最高级爬虫程序检测融入您的移动应用程序的移动SDK。尽管不总是像其他主动检测一样有效,但基于声誉的方法仍不失为保护API的一个好选择,它能够支持那些不具有SDK访问权限的第三方。6.保护 API如果不保护 API,爬虫程序就能从网页轻易迁移到 API 中。8爬虫程序管理的 10 个首要考量因素 这是个古老的争论 先有鸡还是先有蛋?星际迷航还是星球大战?部署在本地还是云端?爬虫程序管理解决方案表现为各种形态和

12、规模。一些供应商采用物理装置。其他供应商选择为解决方案采用基于云的架构设计。您必须弄清楚什么样的解决方案更适合您,还要考虑如何让该解决方案适合您的其余 Web 基础设施。您的 Web 服务器在本地还是在云端?您有一个数据中心还是有多个?您使用内容交付网络(CDN)了吗?所有这些因素都会影响您的选择。考量因素:您的扩缩要求如何?了解在本地部署的装置能否支持预期的增长或流量猛增。您是否需要从源站分载流量?在本地部署的物理装置仍然需要将流量传送到数据中心,而CDN可以管理云端的爬虫程序流量。如果您使用CDN,在您的网站之前再额外部署另一项基于云的服务有什么意义?7.本地还是云端不论位于何处,解决方案

13、都应能 够保护您的应用 程序。9爬虫程序管理的 10 个首要考量因素 您的网站或 Web 应用程序是您业务的主命脉吗?确保正常运行时间的要求是不是很严格,导致您只能在预先确定的时间范围内改动应用程序?如果答案是肯定的,那么您需要知道建议的解决方案要进行哪些应用程序变动。一些供应商需要您更改应用程序,以便进行 API 调用。其他供应商需要您采取硬编码的方式,将其 JavaScript 编入您想要保护的任何页面。这意味着,现在您可能必须将该解决方案纳入您的应用程序发行生命周期。不仅如此,只要供应商更改其解决方案或 JavaScript 代码,您可能就要随之更改您的应用程序。考量因素:该解决方案如何

14、部署?是位于您的应用程序前面的内联解决方案?还是位于带外?如果该解决方案位于带外,它需要怎样的应用程序改动才能正常工作?您是否拥有合适的资源来完成这些改动?8.开发费用爬虫程序管理解决方案应助力业务增长,而不是拖慢业务的 脚步。10爬虫程序管理的 10 个首要考量因素 如果您的网站不止一个页面,您可能会遭遇多个爬虫程序问题,每个问题影响网站的不同部分。针对产品页面的价格抓取。针对增值数字内容的内容抓取。针对登录页面的撞库攻击。但是,在考量爬虫程序管理解决方案时,有些解决方案只能用于解决某一个问题。确保您的管理解决方案能帮助您解决所有爬虫程序问题,无论这些问题影响整个网站,还是只影响特定网页。考

15、量因素:该解决方案的关注点是什么个别网页还是整个网站?如何部署在个别网页还是整个网站的前面?该解决方案能否帮助您解决所有爬虫程序问题,无论是撞库、Web剽窃还是内容聚合?9.网站还是网页确保该解决方案能帮助您解决所有爬虫程序问题,无论这些问题影响的是整个网站还是特定 网页。11爬虫程序管理的 10 个首要考量因素 您需要管理爬虫程序,以控制其对您和您业务的影响,但是,爬虫程序管理并非易事。虽然您的公司可能具备相应的专业知识,但有时候仍然需要额外的帮助,让精通爬虫程序问题的专家来帮助您。任何人都能查看 HTTP 请求并创建签名来阻挡流量,但是,这并不能解决您的问题。您需要的是有人能将爬虫程序与您

16、的核心问题联系起来,设计并实施一种策略来解决这些问题。考量因素:您是否具备特定于爬虫程序的资源的必要专门知识,从而让您能凭借自己的力量有效利用解决方案?爬虫程序管理供应商是否提供专业服务?还是只销售产品?供应商是否随时(甚至在半夜)提供攻击支持,以便您能够对安全事件做出响应?10.托管服务您需要有人能将爬虫程序与您的核心问题联系起来,设计并实施一种策略来解决这些问题。12爬虫程序管理的 10 个首要考量因素 并非所有爬虫程序都是相同的 也并非所有爬虫程序管理解决方案都适合您当您的网站被爬虫程序流量攻占时,您可能会一时冲动,迫不及待地想要购买一些承诺帮您解决爬虫程序问题的产品。但在购买前,为了避免做出错误决定,请务必认真思考有关爬虫程序管理的 10 个首要考量因素,以确保获得符合自身现状和需求的最佳解决方案。13

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Akamai:爬虫程序管理的 10 个考量因素(14页).pdf)为本站 (报告先生) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部