常见爬虫 UserAgent 汇总

记录一些常见的爬虫 UA,方便在爬虫访问是进行统计

主体user-agent用途
Googlegooglebot搜索引擎
Googlegoogle-structured-data-testing-tool测试工具
GoogleMediapartners-GoogleAdsense广告网页被访问后,爬虫就来访
Microsoftbingbot搜索引擎
Linkedlinkedinbot应用内搜索
百度baiduspider搜索引擎
奇虎 360360Spider搜索引擎
搜狗Sogou Spider搜索引擎
YahooYahoo! Slurp China搜索引擎
YahooYahoo! Slurp搜索引擎
头条Bytespider搜索引擎
Twittertwitterbot应用内搜索
Facebookfacebookexternalhit应用内搜索
-rogerbot-
-embedly-
Quoraquora link preview-
-showyoubot-
-outbrain-
-pinterest-
-slackbot-
-vkShare-
-W3C_Validator-

nginx 判断:

if ($http_user_agent ~* "googlebot|bingbot|yandex|baiduspider|360Spider|Sogou Spider|Bytespider|twitterbot|facebookexternalhit|rogerbot|linkedinbot|embedly|quora link preview|showyoubot|outbrain|pinterest\/0\.|pinterestbot|slackbot|vkShare|W3C_Validator|whatsapp") {
## do something
}
Comments
登录后评论
Sign In
·

单独判断 UA 的话没法确定是否为真实的 “某某爬虫”,严格的话要对客户端 IP 做 DNS 分析确定,有很多爬虫伪造 googlebot 去爬别人的内容,比如 fake-useragent 之类