点击下载
本文文档

当前位置：首页 - 科技 - 知识百科 - 正文

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

来源：懂视网责编：小OO 时间：2020-11-27 14:22:32

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

京东是有反爬机制的，所以我用到用户代理、伪装成浏览器。爬取数据是京东商城的手机信息 URL：https：//list.jd.com/list.html？cat=9987，653，655&page=1。大概是9000多条数据，不在列表之内的商品没有算在内。遇到的问题。1、用户代理最好是用方法（use_proxy）封装起来，因为自己之前就是把代码直接写在parse下，遇到not enough values to unpack的问题，我实在不知道错误出在哪一句，就每句代码之后print，发现问题出在urlopen（），但是我反复试、查网上，也没发现错误在哪，写成方法就解决了，现在想来可能是因为parse方法是处理respose。

推荐度：

点击下载本文 文档为doc格式

导读京东是有反爬机制的，所以我用到用户代理、伪装成浏览器。爬取数据是京东商城的手机信息 URL：https：//list.jd.com/list.html？cat=9987，653，655&page=1。大概是9000多条数据，不在列表之内的商品没有算在内。遇到的问题。1、用户代理最好是用方法（use_proxy）封装起来，因为自己之前就是把代码直接写在parse下，遇到not enough values to unpack的问题，我实在不知道错误出在哪一句，就每句代码之后print，发现问题出在urlopen（），但是我反复试、查网上，也没发现错误在哪，写成方法就解决了，现在想来可能是因为parse方法是处理respose。

本文主要为大家分享一篇J如何使用scrapy框架循环爬京东数据后导入Mysql的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

京东是有反爬机制的，所以我用到用户代理、伪装成浏览器。

爬取数据是京东商城的手机信息 URL：https://list.jd.com/list.html?cat=9987,653,655&page=1

大概是9000多条数据，不在列表之内的商品没有算在内。

遇到的问题：

1、用户代理最好是用方法（use_proxy）封装起来，因为自己之前就是把代码直接写在parse下，遇到not enough values to unpack的问题，我实在不知道错误出在哪一句，就每句代码之后print，发现问题出在urlopen（），但是我反复试、查网上，也没发现错误在哪，写成方法就解决了，现在想来可能是因为parse方法是处理respose。

2、在把数据导入mysql之前，我先试着把数据导入到文件中，但是在导入中，发现x.txt的大小一直是0kb,1kb在变，没有增长，想想应该是覆盖了，本来是认为自己fh.close()写的位置不对,后来突然想到

fh = open("D:/pythonlianxi/result/4.txt", "w")写错了，应该要把'w'变成'a'。

3、导入数据库，碰到的问题主要是中文编码问题，要先打开mysql, show variables like '%char%';查看数据库的字符集编码形式，用对应的形式，比如我自己是utf8，用gbk就不好使。另外，在写连接mysql时 charset='utf8'不要忘记。

下面是具体代码：

conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="jingdong", charset="utf8")

import scrapy
from scrapy.http import Request
from jingdong.items import JingdongItem
import re
import urllib.error
import urllib.request
import pymysql
class JdSpider(scrapy.Spider):
 name = 'jd' 
 allowed_domains = ['jd.com'] 
 #start_urls = ['http://jd.com/'] 
 header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"} 
 #fh = open("D:/pythonlianxi/result/4.txt", "w") 
 def start_requests(self): 
 return [Request("https://list.jd.com/list.html?cat=9987,653,655&page=1",callback=self.parse,headers=self.header,meta={"cookiejar":1})] 
 def use_proxy(self,proxy_addr,url): 
 try:
 req=urllib.request.Request(url)
 req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")
 proxy = urllib.request.ProxyHandler({"http": proxy_addr})
 opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
 urllib.request.install_opener(opener)
 data=urllib.request.urlopen(req).read().decode("utf-8","ignore") 
 return data 
 except urllib.error.URLError as e: 
 if hasattr(e,"code"): 
 print(e.code) 
 if hasattr(e,"reason"): 
 print(e.reason) 
 except Exception as e: 
 print(str(e)) 
 
 def parse(self, response):
 item=JingdongItem()
 proxy_addr = "61.135.217.7:80" 
 try:
 item["title"]=response.xpath("//p[@class='p-name']/a[@target='_blank']/em/text()").extract()
 item["pricesku"] =response.xpath("//li[@class='gl-item']/p/@data-sku").extract() 
 
 for j in range(2,166):
 url="https://list.jd.com/list.html?cat=9987,653,655&page="+str(j) 
 print(j) 
 #yield item 
 yield Request(url)
 pricepat = '"p":"(.*?)"' 
 personpat = '"CommentCountStr":"(.*?)",' 
 print("2k") 
 #fh = open("D:/pythonlianxi/result/5.txt", "a") 
 conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="jingdong", charset="utf8") 
 
 for i in range(0,len(item["pricesku"])):
 priceurl="https://p.3.cn/prices/mgets?&ext=11000000&pin=&type=1&area=1_72_4137_0&skuIds="+item["pricesku"][i]
 personurl = "https://club.jd.com/comment/productCommentSummaries.action?referenceIds=" + item["pricesku"][i]
 pricedata=self.use_proxy(proxy_addr,priceurl)
 price=re.compile(pricepat).findall(pricedata)
 persondata = self.use_proxy(proxy_addr,personurl)
 person = re.compile(personpat).findall(persondata)
 
 title=item["title"][i] 
 print(title)
 price1=float(price[0]) 
 #print(price1) 
 person1=person[0]
 #fh.write(tile+"
"+price+"
"+person+"
") 
 cursor = conn.cursor()
 sql = "insert into jd(title,price,person) values(%s,%s,%s);" 
 params=(title,price1,person1) 
 print("4")
 cursor.execute(sql,params)
 conn.commit() 
 
 #fh.close()

 conn.close() 
 return item 
 except Exception as e: 
 print(str(e))

相信聪明的你已经学会了，还等什么，赶快去实践吧。

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

本文如未解决您的问题请添加抖音号：51dongshi（抖音搜索懂视），直接咨询即可。

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

推荐度：

点击下载本文 文档为doc格式

标签：数据京东的方法

热门焦点

员工被要求连续工作37天，无加班费？官方：已展开调查
标签：员工连续工作 37天时间：2024-10-16 10:39:07
奶奶花88元参团1日游100元买保温杯途中还抓到两只鸡
标签：1日游时间：2024-10-16 10:18:49

三伏天黑龙江穿上羽绒服了：早上气温仅有13℃
标签：黑龙江三伏天穿上羽绒服时间：2024-07-27 11:16:58
偷偷降级的火锅盯上打工人外卖你点过火锅外卖吗？
标签：外卖火锅时间：2024-07-23 10:45:14

女子花11000从成都打车到北京全程超2300公里，耗时近40小时
标签：北京成都女子时间：2024-07-13 11:23:20
10元吃上三个菜！社区食堂推出“剩菜盲盒” 你会吃吗？
标签：社区食堂剩菜盲盒时间：2024-07-11 11:35:20

吉祥航空一航班延误未开空调致乘客中暑？
标签：航班延误吉祥航空未开空调时间：2024-07-05 10:29:00
正式通车的深中通道太火爆！桥上有一道可抗17级强台风“玻璃墙”
标签：深中通道通车时间：2024-07-01 11:16:29

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

如何使用scrapy框架循环爬京东数据后导入Mysql的方法

员工被要求连续工作37天，无加班费？官方：已展开调查

奶奶花88元参团1日游100元买保温杯途中还抓到两只鸡

三伏天黑龙江穿上羽绒服了：早上气温仅有13℃

偷偷降级的火锅盯上打工人外卖你点过火锅外卖吗？

女子花11000从成都打车到北京全程超2300公里，耗时近40小时

10元吃上三个菜！社区食堂推出“剩菜盲盒” 你会吃吗？

吉祥航空一航班延误未开空调致乘客中暑？

正式通车的深中通道太火爆！桥上有一道可抗17级强台风“玻璃墙”

最新推荐

江西庐山牯岭变身雾凇“童话世界” 雪树银花不夜天

19岁女孩1天2瓶饮料胖到230斤缓解压力的方式就是吃

济南“一夜无眠”，最新雪后现场来了！下了387个“大明湖”，今天还下吗？

吃起来不咸的食物含盐量低？专家：不可一概而论

冰雪大世界糖葫芦售卖点位起拍价100万元？拍卖公司称系9个点位打包价

11岁男孩爬上火车头遭电击，至今没有脱离生命危险

热门图文

猜你喜欢

热门推荐

抖音扫码关注

每天分享百科知识！