接上一评论，爬取资料前可以先看一下网站的 robots.txt 文件，明确一下网站管理者允许抓取的部分资料。 eastmoney.com/robots.txt 的内容如下： ``` User-agent: * Allow: / Sitemap: http://www.eastmoney.com/sitemap.xml ``` 所以这个网站中的所有内容应该都是可以抓取的。 robots.txt 的规范可以参考 https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=zh-cn。当然，robots.txt 属于君子约定，任何一个网站只要展示出来，那就有办法去自动获取数据。自己玩而不发布出来，目前来看是约束不了的。另外，在代码方面，Python 有可以解析网页内容的库，根据选择符找到想要的内容应该比正则表达式要快一些，比如 Beautiful Soup。你可以尝试一下 :+1: - 寻乐

·4 years ago

接上一评论，爬取资料前可以先看一下网站的 robots.txt 文件，明确一下网站管理者允许抓取的部分资料。

eastmoney.com/robots.txt 的内容如下：

User-agent: *
Allow: /
Sitemap: http://www.eastmoney.com/sitemap.xml

所以这个网站中的所有内容应该都是可以抓取的。

当然，robots.txt 属于君子约定，任何一个网站只要展示出来，那就有办法去自动获取数据。自己玩而不发布出来，目前来看是约束不了的。

另外，在代码方面，Python 有可以解析网页内容的库，根据选择符找到想要的内容应该比正则表达式要快一些，比如 Beautiful Soup。你可以尝试一下

Replies

·4 years ago

Joined 4 years ago