博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python | 初识爬虫框架Scrapy
阅读量:5827 次
发布时间:2019-06-18

本文共 1577 字,大约阅读时间需要 5 分钟。

hot3.png

一、前言

今天给大家分享的是,Python里的爬虫框架Scrapy学习,包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Scrapy项目目录及内容基本介绍,let's go!

二、Python爬虫框架Scrapy简介

推荐查看Scrapy中文帮助文档:

1# 维基百科看Scrapy 2''' 3Scrapy(SKRAY -pee)是一个免费和开源 网络爬行 框架 Python编写的。最初设计用于Web抓取,它还可 4以用于使用API或作为通用Web爬网程序提取数据。它目前由网络抓取开发和服务公司Scrapinghub Ltd.维护 5。 6Scrapy项目体系结构是围绕“Spider”构建的,它们是自包含的爬虫,可以获得一组指令。遵循其他框架的精 7神,不重复自己的框架,例如Django,它允许开发人员重用他们的代码,从而更容易构建和扩展大型爬行项 8目。Scrapy还提供了一个Web爬行shell,开发人员可以使用它来测试他们对站点行为的假设。 9(英译汉有点尴尬!真的想学,还是好好看上面的帮助文档吧)10'''

三、看代码,边学边敲边记虚拟环境、Scrapy框架

1. 新建一个虚拟环境

下面 操作之前你需要准备好:

(1) 你的python版本是3.x,最好系统里只有一个python环境,后面所有学习笔记都基于py3的。
(2)python环境里先安装virtualenv模块,基本方法pip install virtualenv 。
(3)选择好虚拟环境的安装目录(我选的是H盘目录下的env文件夹,建议你选的目录路径里最好不要有中文)。

1PS H:\env\> virtualenv spiderenv2Using base prefix 'c:\\users\\82055\\appdata\\local\\programs\\python\\python36'3New python executable in H:\env\spiderenv\Scripts\python.exe4Installing setuptools, pip, wheel...done.5注: 如果系统中有两个python环境(py2和py3),新建基于py3的虚拟环境方法6virtualenv -python=你的Python3安装目录(精确到python.exe) spiderenv(虚拟环境名称)

安装完成后再自己选择的目录下会多出一个文件夹(虚拟环境),我这里为H:\env\spiderenv,后面所有爬虫学习过程中需要的模块、接口都将pip(安装)在里面。

2. 打开虚拟环境,安装Scrapy框架

进入到目录H:\env\spiderenv\Scripts(我的虚拟环境目录),按住shift+鼠标右键,打开powershell或者cmd(如果是powershell就先输入cmd),再输入activate,进入虚拟环境,你会发现在路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:

1# 注:打开powershell 的可以参照下面操作2PS H:\env\spiderenv\Scripts> cmd3Microsoft Windows [版本 10.0.17134.112]4(c) 2018 Microsoft Corporation。保留所有权利。56H:\env\spiderenv\Scripts>activate7(spiderenv) H:\spiderenv\Scripts>

安装scrapy模块(下面操作都是在虚拟环境下):

转载于:https://my.oschina.net/u/3611008/blog/2046088

你可能感兴趣的文章
工作日志2014-08-25
查看>>
php分享二十二:php面向对象
查看>>
Storm 配置图文解析
查看>>
python爬虫
查看>>
C# 网络打印机ESC指令打印小票
查看>>
hibernate笔记--基于主键的单(双)向的一对一映射关系
查看>>
Spring MVC返回对象JSON
查看>>
windows2008 RDP修改默认端口
查看>>
【转】关于127.0.0.1地址的疑惑
查看>>
salesforce 零基础学习(十六)Validation Rules & Date/time
查看>>
Struts核心技术简介
查看>>
jQuery/js 正则收集(邮件验证、)
查看>>
PowerDesigner 常用设置
查看>>
JavaScript-事件冒泡简介及应用
查看>>
JSON数组,JSON对象,数组的区别与基本操作整理
查看>>
mysql数据库表结构导出
查看>>
第八十八节,html5+css3pc端固定布局,搜索区,插入大图,搜索框
查看>>
字节对齐1
查看>>
HTTP协议下保证密码不被获取更健壮方式
查看>>
手势估计- Hand Pose Estimation
查看>>