导语:
本文主要介绍了关于教你用python获取百度热榜链接的相关知识,希望可以帮到处于编程学习途中的小伙伴
目标网址:
(推荐教程:
)
https://www.baidu.com/
要获取的内容:
链接分析:
从下图可以看出,只需要获取关键字,然后进行构建即可。
完整代码:
import requests
import pprint
import re
import urllib.parse
url = 'https://www.baidu.com/'
headers = {
'Host': 'www.baidu.com',
'Referer': 'https://www.baidu.com/',
'User-Agent': 你的User-Agent,
'Cookie': 你的Cookie
}
response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))
for hot_word in keyword:
# 汉字不符合url标准,所以这里需要进行url编码
i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
# url构建
link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
print(link)
你会发现结果很长:
但其实关键字后面的几个参数可以去掉,这样url就不会那么长了。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 什么是 python-gil12/07
- ♥ 如何在 python 中创建 Web 服务12/27
- ♥ python请求的超时使用10/16
- ♥ 如何在python中添加行号11/16
- ♥ python中exp函数是如何使用的?09/03
- ♥ python 正则表达式如何不区分大小写09/11
内容反馈