博客

crawler

1 篇文章

← 所有标签

Cover Image for 突破防采集,再难也要上

突破防采集,再难也要上

这篇文章讲述了作者在进行项目采集时遇到的挑战,尤其是代理服务器的重要性。由于系统故障,作者丢失了几天的代码,导致情绪低落。但他决定继续进行代理服务器的采集工作。 介绍了通过自定义 Java StreamTokenizer 的方式处理采集页面的方法,提取经过 CSS 混淆隐藏的免费 Proxy IP,整篇文章既包含了技术细节,也展示了解决问题的思路和方法。