代理兼容性终极指南(2022 版)

Last modified date

Comments: 2

当您开始使用自动化软件和连接时,代理连接的世界可能会非常复杂。使用代理浏览网页非常简单,但是如果使用六个代理来运行针对 Google 的 Scrapebox 之类的程序,情况会怎样呢?Scrapebox 以检测机器人并阻止它们而臭名昭著。

你要担心的事情可能比你想象的要多得多。你知道 SOCKS4 和 SOCKS5 之间的区别吗?你知道转发代理流量需要哪些端口吗?你知道住宅 IP 是什么意思吗?谢天谢地,我来帮你复习一下。

我也经常被问到有关单个软件的问题。“应用程序 X 是否适用于您的代理? ”通常,答案是肯定的,但我更愿意告诉您为什么会这样,而不是让您盲目接受它。因此,首先,我将介绍您在使用代理时可能遇到的不同重要因素及其含义,然后我将介绍您可能与代理一起使用的一些最流行的应用程序以及它们需要什么。


检查事项

正如我所说,我要做的第一件事是介绍处理代理连接和使用代理执行任务时可能遇到的常见问题。其中一些内容可能有点技术性,因此如果您只关注应用程序兼容性,请直接跳至下一部分。


HTTP、SOCKS4 和 SOCKS5

这是第一个也可能是最重要的兼容性问题;代理可以使用的连接类型。SOCKS 是默认的代理连接类型。使用 SOCKS 的代理服务器位于客户端和服务器目标之间的中间。例如,如果您使用 Scrapebox 之类的东西,它将位于您和 Google 之间。SOCKS 本身代表 SOCKet Secure。

SOCKS4 和 SOCKS5 之间的区别在于 SOCKS5 包含身份验证。使用 SOCKS4 代理时,无需使用登录名和密码,也无需在目标服务器上使用身份验证信息。换句话说,如果您尝试抓取需要登录才能访问的页面上的数据,则需要使用 SOCKS5 代理服务器。

那么 HTTP 呢? HTTP 更专业,因此限制也更多。您可能认出 HTTP 是通用 URL 的开头。这是因为它是用于标准网络流量的通用协议。

SOCKS 是一种用于服务器到服务器通信的协议,它不对数据进行解释;它只是将数据从 A 点经 B 点传递到 C 点,且不做任何改变。

但是,B 点的 HTTP 连接有机会解释和转发流量。这对于简化抓取的某些方面很有用。例如,如果您正在抓取 Amazon 流量,HTTP 连接能够识别和缓存常见元素,以最大限度地减少您的抓取工具需要从 Amazon 本身下载的内容。

话虽如此,HTTP 连接仅限于 HTTP 通信。如果您尝试访问不允许 HTTP 连接的服务器,但您的软件要求您使用 HTTP 连接,那么您将无法建立连接。


通信所需的端口

端口是互联网通信的另一个基础部分,大多数人除非需要摆弄它们,否则都会完全忽略它。它们本质上就像无线电频道频率或电视频道。另一个类比可能是公寓楼;它是一个街道地址,即 IP 地址。端口将指定公寓本身。

通常使用不同的端口来区分用于建立连接的服务。

  • 端口 21通常用于 FTP 连接
  • 端口 22用于 SSH 连接
  • 端口 53用于 DNS 服务
  • 端口 80几乎总是专门用于 HTTP 通信,这也是代理的限制。

如果您的代理仅支持 HTTP,则它将被限制为端口 80。如果代理使用 SOCKS,它通常可以使用任何端口,因此您必须根据目的地的要求定制端口。


安全传输数据

这是您可能对代理服务器的另一个担忧,但与上面的 SOCKS 和端口因素无关。这完全取决于通过代理建立的连接是否安全。

许多公共代理根本不安全;它们通过东欧服务器路由,这些服务器会将广告注入流量或通过覆盖路由。你永远不知道该服务器上可能运行着哪种软件来窥探正在建立的连接和正在发送的数据。

相比之下,私人代理往往更安全,因为代理服务器本身位于更安全的位置。

它们还专为更高级的用户而设计,这些用户会因为数据被窥探而感到愤怒。您可能还需要安全连接才能访问某些网站,尤其是通过 SCOKS5 需要身份验证的网站。始终避免将敏感的登录信息输入不安全的代理。


匿名与否

匿名性问题是代理连接理念的核心问题之一。许多人使用代理进行简单的网页浏览,因为他们不希望自己的家庭 IP 地址与浏览习惯相关联。他们可能只是不想被 Facebook、Google 或大型广告网络等大型实体追踪。

或者,他们可能在做一些非法的事情——或者实际上是非法的——并想躲避执法部门或国家安全局。当然,这并不总是可能的。看看丝绸之路在联邦调查局突袭并逮捕最严重的罪犯之前,所有用户都以为自己是安全的。虚假的安全感来自于所谓的匿名性,而这种匿名性本身来自于这样一种想法:躲在代理后面会让你无法被追踪。

代理的匿名性有多种级别。有些代理会转发您通常转发的几乎所有常规信息,但实际上根本不提供任何匿名性。它们会告诉目标服务器它们的 IP 地址以供访问,但会说“顺便说一下,我的实际 IP 是,以防万一。”除非有人想跟踪您,否则它们不会这样做,在这种情况下,他们可以在那里找到您的真实 IP。

更高级别的安全性不会转发太多信息。下一步称为扭曲代理,不会泄露您的 IP 地址,但会泄露它们是代理连接。目标服务器会知道有人通过代理进行连接,但不知道原始 IP 地址。

最高级别的匿名性来自模拟真实连接的顶级代理。这些代理甚至不会透露它们是代理,尽管有时用户行为会暴露它们。


能够绕过搜索引擎拦截

这是人们称之为“Google 安全”的代理因素,它意味着代理的 IP 地址不是代理服务器,并且过去没有被滥用。Google 拥有积极的反代理和反机器人措施,如果检测到滥用和机器人,它将使您的连接超时。

代理是否对 Google 安全并不一定是代理本身的因素;它通常更多地是用户行为的问题。如果您从一个 IP 地址发出大量类似的重复请求,则它看起来像是一个机器人。如果您为这些请求改变 IP 地址,并改变它们的时间,它看起来更像是自然用户。这就是为什么您应该使用代理列表而不是单一代理,以及为什么您应该设置延迟和异步连接。


IP 位置

最后一个因素就是代理服务器来自哪里。这主要分为两类。

第一类是地理因素。如果您尝试登录以美国为中心的网站,使用位于乌克兰的代理服务器可能不是一个好主意。许多通常被抓取工具瞄准的网站会阻止外国 IP,或将其重新路由到网站的外国版本;这对您的需求没有价值。

另一个类别是使用。IP 是来自数据中心,还是来自住宅区?这可能是此列表中最重要的因素。许多大型实体(如 Google、Amazon 和电子商务网站)将检测何时从数据中心建立连接。这是他们检测代理和抓取工具滥用的方法之一。从住宅 IP 位置进入总是更好的,因为这更像他们的典型用户行为。


应用程序及其兼容性

您可能希望将许多常用应用程序或软件与代理一起使用。它们通常以某种形式自动抓取数据,但其他一些则会批量提交数据。通常,网站不喜欢机器人进行此类操作,因为这是垃圾邮件和虚假账户的来源。我不是来评判你的使用情况的;我相信你知道自己在做什么。

对于您选择如何使用代理,我也不承担任何责任。我所做的只是查看常用程序并告诉您它们的要求。作为免责声明,我不一定支持或纵容以下应用程序的黑帽使用;您做什么取决于您自己。

Scrapebox

这可能是黑帽和白帽操作中最强大的工具之一,它是一款非常强大的数据收集器。黑帽 SEO 和财富 500 强企业都使用它。多线程操作支持大量连接,只要您正确使用,它对 Google 来说是安全的。当然,根据您的使用情况,它可能会遭到禁止。这就是为什么您需要大量代理、异步和多样化的请求以及提交延迟的原因。请谨慎使用。

  • 支持 HTTP 和 SOCKS 连接。
  • 支持私人和公共代理,但私人代理更受欢迎。
  • 强烈建议您使用大型、轮换的代理列表,而不是短的、静态的列表。

相关:为什么您的 ScrapeBox 上的收割机不工作

XRumer

这是另一个链接构建 SEO 应用程序,主要关注具有一定剩余价值的网络论坛。它还针对博客评论、期刊留言簿、链接目录、社交网络、社交书签网站等。它包括绕过许多常见系统的验证码,包括文本问答系统。为了避免垃圾邮件标签,它会尝试根据目标论坛或板块的主题定制帖子。

  • 支持 HTTP 和 SOCKS 连接。
  • 更喜欢使用私人代理以避免尝试使用以前被禁止的 IP 地址。

SEnuke TNG

SEnuke TNG 是一款专为 SEO 设计的旧程序,它被用作更高级版本 SEnukeX 的基础。这个新版本从头开始创建,包含更多功能,包括基本教程、流程图和数周的计划。它努力通过尽可能自然地出现来保持对 Google 的良好印象。该应用程序有 14 天的试用期和 30 天的退款保证。

  • 仅需要 HTTP 连接。
  • 更喜欢私人代理以避免公共代理服务器的常见问题。

推特攻击

Tweet Attacks Pro 4 是 Tweet Attacks 的当前版本,是一款可以同时管理多达数千个 Twitter 帐户的软件。它允许自动关注、取消关注、回复关注、发推文、转发、回复、点赞、删除以及您可能希望通过 Twitter 执行的任何其他操作。它还允许对这些 Twitter 帐户进行个性化定制,以消除运行模拟帐户网络时的“鸡蛋”问题。费用取决于您喜欢的程序层级。

  • 由于 Twitter 的身份验证要求,因此只需要 HTTP 连接。
  • 支持私人和公共代理,但私人代理更适合避免被发现。
  • 建议您使用多个代理来管理您的帐户,但您不需要为每个帐户配备专用代理。

相关:更多 Twitter 自动化工具

Ticketmaster

这是各种 Ticketmaster 购票机器人的通用类别。它们种类繁多,包括名为 TicketMaster、TicketMaster Spinner 和 TicketBots 的机器人。所有这些机器人都有共同的要求,因为它们访问同一个网站,目的相同;购买多张演出门票,然后转售门票以赚取利润。这种倒票行为并不违法,除非是在演出场所内进行。不过,有些州对门票转售的法律可能更为严格。

  • 需要与 Ticketmaster 网站建立 HTTP 连接以进行身份​​验证和显示目的。
  • 优先使用住宅 IP 地址,因为 Ticketmaster 容易撤销对数据中心 IP 和其他发出机器人信号的非本地 IP 的销售。

创建 Twitter 帐户

要使用像上述 Twitter 管理器这样的机器人,您需要批量创建 Twitter 帐户。有许多不同的机器人允许这样做,例如 Twitter Mass Account Maker 或 Twitter Account Creator Bot。与 Ticketmaster 机器人一样,这些机器人都有类似的要求。

  • 需要 HTTP 连接来验证 Twitter 服务器的真实性和登录身份。
  • 更喜欢住宅 IP 地址,通常是私有的而不是公共的,但由于 Twitter 的代理和企业使用,偶尔使用数据中心 IP 并不意外。

相关:如何使用代理创建批量社交帐户

创建 Facebook 帐户

这在很多方面与上面列出的 Twitter 机器人相同。

一些常见的 Facebook 帐户机器人包括 Facebook Account Creator 和 FBDevil。

  • 需要 HTTP 连接来验证 Facebook 服务器的真实性和登录身份。
  • 更喜欢住宅 IP 地址,并且通常更喜欢私有地址而不是公共地址。

创建电子邮件账户

电子邮件帐户可以批量创建,方式与社交资料类似,但机器人的数量与电子邮件提供商的数量一样多。每个提供商都不同,每个机器人也不同,因此在购买或使用代理列表之前,请确保满足要求。

通常,要求与上述社交要求相同:HTTP 连接和住宅 IP。不过,有些电子邮件系统可以使用其他连接或数据中心 IP


chcrazy

Share

2 Responses

发表回复