从日志看这几个数据:
1. 高频重复同一模式URL:蜘蛛在极短时间内反复抓取结构相似的URL(例如只有参数不同)。
2. 大量非必要URL:疯狂抓取一些对收录无价值的链接,如排序、过滤、会话ID等生成的无限组合页面。
3. 爬取深度异常:不断抓取深层、无意义的目录层级,形成 a/b/c/d/e… 这类循环。
4. 状态码异常:伴随大量 301/302 重定向循环,或重复的 200 状态码(内容相同)。
5. 忽略 Robots.txt:有时蜘蛛会因解析错误而忽略 robots.txt 的禁止指令,进入循环。