图片url解析正确,但爬虫无法下载图片

图片url解析正确,但爬虫无法下载图片

爬虫错误debug解注释DOWNLOADER_MIDDLEWARESHTTP status code is not handled or not allowed使用xpath复制的网页元素路径却下载不到图片网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403网页图片设置了在显示图片前先显示一个动态图

参考博客链接:github爬虫代码

爬虫错误debug

解注释DOWNLOADER_MIDDLEWARES

# Enable or disable downloader middlewares

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {

'imgspider.middlewares.ImgspiderDownloaderMiddleware': 543,

}

如果你不是使用scrapy startproject yourspider这个命令创建项目的话,项目中可能不会有middlewares.py文件,必须有这个文件再在settings.py中进行设置才生效 如果你使用pip install安装可能漏装Pillow这个库记得补上

HTTP status code is not handled or not allowed

注意查看网页地址是否正确 如下com和article中间多了/

INFO: Ignoring response <404 https://hwenhai-vpn01.eastasia.cloudapp.azure.com//article/8756/>: HTTP status code is not handled or not allowed

使用xpath复制的网页元素路径却下载不到图片

这种情况有多种 目前我只遇到两种

网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403

这种情况你得研究反反爬虫的技术了 网上一般说是VPN+代理IP

网页图片设置了在显示图片前先显示一个动态图

这种情况打开网页的源代码会看到 src属性指定的是一张动态图片,而data-src指定才是真正的图片地址,使用右键检查src指定的也是图片地址但爬到的是gif图片,把属性改成data-src就解决了

参考博客链接:

https://blog.csdn.net/Wfarmer/article/details/104990791

github爬虫代码

git@github.com:YuanJZhang/Imgspider.git