·

接上一评论,爬取资料前可以先看一下网站的 robots.txt 文件,明确一下网站管理者允许抓取的部分资料。

eastmoney.com/robots.txt 的内容如下:

User-agent: *
Allow: /
Sitemap: http://www.eastmoney.com/sitemap.xml

所以这个网站中的所有内容应该都是可以抓取的。

robots.txt 的规范可以参考 https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=zh-cn。

当然,robots.txt 属于君子约定,任何一个网站只要展示出来,那就有办法去自动获取数据。自己玩而不发布出来,目前来看是约束不了的。

另外,在代码方面,Python 有可以解析网页内容的库,根据选择符找到想要的内容应该比正则表达式要快一些,比如 Beautiful Soup。你可以尝试一下 +1

Replies
1

+1 +1