用python爬取东方财富上证A股并存入mysql
准备:
python、mysql
python用到的包:requests、pandas、re、time、random、sqlalchemy
1、找目标
要爬网站得先了解网站的结构,得知道
接上一评论,爬取资料前可以先看一下网站的 robots.txt 文件,明确一下网站管理者允许抓取的部分资料。
eastmoney.com/robots.txt 的内容如下:
User-agent: *
Allow: /
Sitemap: http://www.eastmoney.com/sitemap.xml
所以这个网站中的所有内容应该都是可以抓取的。
robots.txt 的规范可以参考 https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=zh-cn。
当然,robots.txt 属于君子约定,任何一个网站只要展示出来,那就有办法去自动获取数据。自己玩而不发布出来,目前来看是约束不了的。
另外,在代码方面,Python 有可以解析网页内容的库,根据选择符找到想要的内容应该比正则表达式要快一些,比如 Beautiful Soup。你可以尝试一下