爬一个网站所有文章,如何用Python爬取搜索引擎的结果

我选取的是爬取百度知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 Python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理爬一个网站所有文章。

爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个表为urlLib,存储已经爬取的url,是一个辅助表,在我们爬取每个网页前,需要先判断该网页是否已爬过(是否存在urlLib中)。在数据存储的过程中,使用了SQL的少量语法,由于我之前学过 MySQL ,这块处理起来比较驾轻就熟。

深度优先的网页爬取方案是:给定初始 url,爬取这个网页中所有 url,继续对网页中的 url 递归爬取。代码逐段解析在下面,方便自己以后回顾。

1.建一个 scrapy 工程:

关于建工程,可以参看这个scrapy入门教程,通过运行:

[python] view plain copy

scrapy startproject ***

在当前目录下建一个scrapy 的项目,然后在 spiders 的子目录下建立一个 .py文件,该文件即是爬虫的主要文件,注意:其中该文件的名字不能与该工程的名字相同,否则,之后调用跑这个爬虫的时候将会出现错误,见ImportError。

2.具体写.py文件:

[python] view plain copy

import scrapy

from scrapy import Request

import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider

name = \”zhidao\” #将该爬虫命名为 “知道”,在执行爬虫时对应指令将为: scrapy crawl zhidao

#download_delay = 1 #只是用于控制爬虫速度的,1s/次,可以用来对付反爬虫

allowed_domains = [\”zhidao.baidu.com\”] #允许爬取的作用域

url_first = \’/question/\’ #用于之后解析域名用的短字符串

start_urls = [\”/z/q656671281.htm\”, #python

\”/z/q659426567.htm\”, #database

\”/z/q654454066.htm\”, #C++

\”/question/251232779.html\”, #operator system

\”/question/137965104.html\” #Unix programing

] #定义初始的 url ,有五类知道起始网页

#add database

connDataBase = sqlite3.connect(\”zhidao.db\”) #连接到数据库“zhidao.db”

cDataBase = connDataBase.cursor() #设置定位指针

cDataBase.execute(\’\’\’\’\’CREATE TABLE IF NOT EXISTS infoLib

(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)\’\’\’)

#通过定位指针操作数据库,若zhidao.db中 infoLib表不存在,则建立该表,其中主键是自增的 id(用于引擎的docId),下一列是文章的标题,然后是url,最后是html

#url dataBase

cDataBase.execute(\’\’\’\’\’CREATE TABLE IF NOT EXISTS urlLib

(url text PRIMARY KEY)\’\’\’)

#通过定位指针操作数据库,若zhidao.db中urlLib表不存在,则建立该表,其中只存了 url,保存已经爬过的url,之所以再建一个表,是猜测表的主键应该使用哈希表存储的,查询速度较快,此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数:

.py文件中的parse函数将具体处理url返回的 response,进行解析,具体代码中说明:

[python] view plain copy

def parse(self,response):

pageName = response.xpath(\’//title/text()\’).extract()[0] #解析爬取网页中的名称

pageUrl = response.xpath(\”//head/link\”).re(\’href=\”(.*?)\”\’)[0] #解析爬取网页的 url,并不是直接使用函数获取,那样会夹杂乱码

pageHtml = response.xpath(\”//html\”).extract()[0] #获取网页html

# judge whether pageUrl in cUrl

if pageUrl in self.start_urls:

#若当前url 是 start_url 中以一员。进行该判断的原因是,我们对重复的 start_url 中的网址将仍然进行爬取,而对非 start_url 中的曾经爬过的网页将不再爬取

self.cDataBase.execute(\’SELECT * FROM urlLib WHERE url = (?)\’,(pageUrl,))

lines = self.cDataBase.fetchall()

if len(lines): #若当前Url已经爬过

pass #则不再在数据库中添加信息,只是由其为跟继续往下爬

else: #否则,将信息爬入数据库

self.cDataBase.execute(\’INSERT INTO urlLib (url) VALUES (?)\’,(pageUrl,))

self.cDataBase.execute(\”INSERT INTO infoLib (name,url,html) VALUES (?,?,?)\”,(pageName,pageUrl,pageHtml))

else: #此时进入的非 url 网页一定是没有爬取过的(因为深入start_url之后的网页都会先进行判断,在爬取,在下面的for循环中判断)

self.cDataBase.execute(\’INSERT INTO urlLib (url) VALUES (?)\’,(pageUrl,))

self.cDataBase.execute(\”INSERT INTO infoLib (name,url,html) VALUES (?,?,?)\”,(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print \”———————————————–\” #输出提示信息,没啥用

for sel in response.xpath(\’//ul/li/a\’).re(\’href=\”(/question/.*?.html)\’): #抓出所有该网页的延伸网页,进行判断并对未爬过的网页进行爬取

sel = \”\” + sel #解析出延伸网页的url

self.cDataBase.execute(\’SELECT * FROM urlLib WHERE url = (?)\’,(sel,)) #判断该网页是否已在数据库中

lines = self.cDataBase.fetchall()

if len(lines) == 0: #若不在,则对其继续进行爬取

yield Request(url = sel, callback=self.parse)

相关文章

联系我们

联系我们

18190516037

在线咨询: QQ交谈

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部