导语:
本文主要介绍了关于python如何重写start_requests方法的相关知识,希望可以帮到处于编程学习途中的小伙伴
说明
1.在scrapy中,start_url由start_requests处理。通过重写这个方法,start_url可以携带请求头信息。
2、cookie不能放在scrapy中的headers中,在构建请求时有专门的cookies参数。
可以接收字典形式的cookies。可能需要在设置中设置 ROBOTS 协议和 USER_AGENT。
实例
import scrapy
class Git1Spider(scrapy.Spider):
name = 'git1'
allowed_domains = ['github.com']
start_urls = ['https://github.com/GitLqr']
def start_requests(self):
"""
重写start_requests,发送携带cookies的Request。
默认start_requests只是普通的get请求,不会携带自定义的头信息
"""
url = self.start_urls[0]
temp = '_octo=GH1.1.1045146750.1615451260; _device_id=cd8d64981fcb3fd4ba7f587873e97804'
# 把cookies字符串转成字典
cookies = {data.split('=')[0]: data.split('=')[-1] for data in temp.split('; ')}
yield scrapy.Request(
url=url,
callback=self.parse,
cookies=cookies
)
def parse(self, response):
print(response.xpath('/html/head/title/text()').extract_first())
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何解释python中的输入08/26
- ♥ 如何用python画图08/20
- ♥ 如何复制python嵌套列表12/06
- ♥ Python 在带参数的函数中使用装饰器10/09
- ♥ 如何在 Python 中使用 xlwt 输入表格日期09/26
- ♥ python中的e是什么意思08/24
内容反馈