以前没有太关注反爬技术,现在总算接触到了。我在想,既然有利用js打乱文章正常顺序的反扒技术,那么我们是不是可以把包含js代码的网页交由js解析器先解析,得到纯HTML的网页后再爬取文字内容呢?这样就避免了人家改了排序逻辑我们代码就无效的问题了!
说到反扒技术,我想起之前有人想根据书籍的条形码获取书籍信息的文章,国家图书馆的反扒技术是动态改变链接地址,只有网页上点击搜索才会跳出一个正确链接,若是爬取了这个链接,下次使用又不对了!这个反扒技术该如何破解,请大侠们赐招
说到反扒技术,我想起之前有人想根据书籍的条形码获取书籍信息的文章,国家图书馆的反扒技术是动态改变链接地址,只有网页上点击搜索才会跳出一个正确链接,若是爬取了这个链接,下次使用又不对了!这个反扒技术该如何破解,请大侠们赐招








程序代码: