在Python的应用领域中,爬虫算是比较热门的了。我在之前也爬过一些知名网站,写过一系列爬虫实战系列的博客。作为一名爬虫技术人,在这里想安利一波爬虫的相关库:
requests:可以模拟HTTP
请求,简单易用,对于一些简单的网页爬取,用它绰绰有余。
selenium:可以模拟用户操作浏览器,也比较友好。
scrapy:一个爬虫应用框架,封装的比较好,用户编写少量的代码即可。
Appium:手机爬虫用。
Beatuiful Soup:用来解析爬取网页的。
fake_useragent:用来生产假的user agent的。
wordcloud:词云图,用来对文本数据进行可视化的。