近期需要使用HTTP Proxy(代理)改寫一些爬蟲行為,主要為了避免頻繁使用特定服務而被阻擋。代理伺服器部分主要可以 REMOTE_ADDR、HTTP_VIA、HTTP_X_FORWARDED_FOR三個屬性區分。
代理(Proxy)伺服器分類,根據Free-Proxy-list說明如下:
Transparent Proxy: The web server can know you are using a proxy and it can also know your real IP.
Anonymous Proxy: The web server can know you are using a proxy, but it can’t know your real IP.
Elite Proxy / Highly Anonymous Proxy: The web server can’t detect whether you are using a proxy.
除此之外,還有混淆代理,大致上區別如下:
- 透明代理(Transparent Proxy): 透明代理可以隱藏你的IP,但仍然可以從HTTP_X_FORWARDED_FOR來查到來源。
- 匿名代理(Anonymous Proxy):匿名代理,可以隱藏IP,但對方可以知道這次的連線是用代理的方式進行。
- 混淆代理(Distorting Proxy):混淆代理相較匿名代理,可以讓對方知道你在用代理,但是IP會是假的,可以混淆對方。
- 高匿名代理(Elite Proxy or High Anonymous Proxy):高匿名代理可以讓對方完全不知道你是在用代理。
結語:整理一些相關資料,大概知道一下各種Proxy的限制和資訊,避免之後忘記,就寫下來作為紀錄。