最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
当前位置: 首页 - 科技 - 知识百科 - 正文

python利用beautifulSoup实现爬虫

来源:懂视网 责编:小采 时间:2020-11-27 14:31:11
文档

python利用beautifulSoup实现爬虫

python利用beautifulSoup实现爬虫:以前讲过利用phantomjs做爬虫抓网页 www.gxlcms.com/article/55789.htm 是配合选择器做的利用 beautifulSoup(文档 :www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块,可以很轻松的抓取网页内容# coding=utf-
推荐度:
导读python利用beautifulSoup实现爬虫:以前讲过利用phantomjs做爬虫抓网页 www.gxlcms.com/article/55789.htm 是配合选择器做的利用 beautifulSoup(文档 :www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块,可以很轻松的抓取网页内容# coding=utf-

以前讲过利用phantomjs做爬虫抓网页 www.gxlcms.com/article/55789.htm 是配合选择器做的

利用 beautifulSoup(文档 :www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块,可以很轻松的抓取网页内容

# coding=utf-8
import urllib
from bs4 import BeautifulSoup

url ='http://www.baidu.com/s'
values ={'wd':'网球'}
encoded_param = urllib.urlencode(values)
full_url = url +'?'+ encoded_param
response = urllib.urlopen(full_url)
soup =BeautifulSoup(response)
alinks = soup.find_all('a')

上面可以抓取百度搜出来结果是网球的记录。

beautifulSoup内置了很多非常有用的方法。

几个比较好用的特性:

构造一个node元素

代码如下:

soup = BeautifulSoup('
Extremely bold
')
tag = soup.b
type(tag)
#

属性可以使用attr拿到,结果是字典

代码如下:

tag.attrs
# {u'class': u'boldest'}

或者直接tag.class取属性也可。

也可以自由操作属性

tag['class'] = 'verybold'
tag['id'] = 1
tag
#Extremely bolddel tag['class']
del tag['id']
tag
#Extremely boldtag['class']
# KeyError: 'class'
print(tag.get('class'))
# None

还可以随便操作,查找dom元素,比如下面的例子

1.构建一份文档

html_doc = """The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;
and they lived at the bottom of a well...."""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

2.各种搞

soup.head
#The Dormouse's storysoup.title
#The Dormouse's storysoup.body.b
# The Dormouse's storysoup.a
# Elsiesoup.find_all('a')
# [Elsie,
# Lacie,
# Tillie]
head_tag = soup.head
head_tag
#The Dormouse's storyhead_tag.contents
[The Dormouse's story]

title_tag = head_tag.contents[0]
title_tag
#The Dormouse's storytitle_tag.contents
# [u'The Dormouse's story']
len(soup.contents)
# 1
soup.contents[0].name
# u'html'
text = title_tag.contents[0]
text.contents

for child in title_tag.children:
 print(child)
head_tag.contents
# [The Dormouse's story]
for child in head_tag.descendants:
 print(child)
#The Dormouse's story# The Dormouse's story

len(list(soup.children))
# 1
len(list(soup.descendants))
# 25
title_tag.string
# u'The Dormouse's story'

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文档

python利用beautifulSoup实现爬虫

python利用beautifulSoup实现爬虫:以前讲过利用phantomjs做爬虫抓网页 www.gxlcms.com/article/55789.htm 是配合选择器做的利用 beautifulSoup(文档 :www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块,可以很轻松的抓取网页内容# coding=utf-
推荐度:
标签: 使用 实现 python
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top