一、前言
今天给大家分享的是,Python里的爬虫框架Scrapy学习,包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Scrapy项目目录及内容基本介绍,let's go!
二、Python爬虫框架Scrapy简介
推荐查看Scrapy中文帮助文档:
1# 维基百科看Scrapy 2''' 3Scrapy(SKRAY -pee)是一个免费和开源 网络爬行 框架 Python编写的。最初设计用于Web抓取,它还可 4以用于使用API或作为通用Web爬网程序提取数据。它目前由网络抓取开发和服务公司Scrapinghub Ltd.维护 5。 6Scrapy项目体系结构是围绕“Spider”构建的,它们是自包含的爬虫,可以获得一组指令。遵循其他框架的精 7神,不重复自己的框架,例如Django,它允许开发人员重用他们的代码,从而更容易构建和扩展大型爬行项 8目。Scrapy还提供了一个Web爬行shell,开发人员可以使用它来测试他们对站点行为的假设。 9(英译汉有点尴尬!真的想学,还是好好看上面的帮助文档吧)10'''
三、看代码,边学边敲边记虚拟环境、Scrapy框架
1. 新建一个虚拟环境
下面 操作之前你需要准备好:
(1) 你的python版本是3.x,最好系统里只有一个python环境,后面所有学习笔记都基于py3的。 (2)python环境里先安装virtualenv模块,基本方法pip install virtualenv 。 (3)选择好虚拟环境的安装目录(我选的是H盘目录下的env文件夹,建议你选的目录路径里最好不要有中文)。1PS H:\env\> virtualenv spiderenv2Using base prefix 'c:\\users\\82055\\appdata\\local\\programs\\python\\python36'3New python executable in H:\env\spiderenv\Scripts\python.exe4Installing setuptools, pip, wheel...done.5注: 如果系统中有两个python环境(py2和py3),新建基于py3的虚拟环境方法6virtualenv -python=你的Python3安装目录(精确到python.exe) spiderenv(虚拟环境名称)
安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境),我这里为H:\env\spiderenv,后面所有爬虫学习过程中需要的模块、接口都将pip(安装)在里面。
2. 打开虚拟环境,安装Scrapy框架
进入到目录H:\env\spiderenv\Scripts(我的虚拟环境目录),按住shift+鼠标右键,打开powershell或者cmd(如果是powershell就先输入cmd),再输入activate,进入虚拟环境,你会发现在路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:
1# 注:打开powershell 的可以参照下面操作2PS H:\env\spiderenv\Scripts> cmd3Microsoft Windows [版本 10.0.17134.112]4(c) 2018 Microsoft Corporation。保留所有权利。56H:\env\spiderenv\Scripts>activate7(spiderenv) H:\spiderenv\Scripts>
安装scrapy模块(下面操作都是在虚拟环境下):