Ubuntu中搭建scrapy框架

By | 2014/04/13

更多博客
操作系统:Ubuntu 12.04 STL
python版本:2.7.5
配置步骤:
(一)、配置gcc的xml环境:
打开终端,运行:

sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libxml2 libxml2-dev
sudo apt-get install libxml2-dev libxslt-dev
sudo apt-get install python-lxml

(二)、配置Twisted
打开终端,运行:

sudo apt-get install python-twisted python-libxml2 python-simplejson

(三)、配置pyOpenSSL
在终端中运行:

wget http://pypi.python.org/packages/source/p/pyOpenSSL/pyOpenSSL-0.13.tar.gz
tar -zxvf pyOpenSSL-0.13.tar.gz
cd pyOpenSSL-0.13
sudo python setup.py install

(四)、配置安装pycrypto
依然是在终端中,运行:

wget http://pypi.python.org/packages/source/p/pycrypto/pycrypto-2.5.tar.gz
tar -zxvf pycrypto-2.5.tar.gz
cd pycrypto-2.5
sudo python setup.py install

(五)、安装安装easy_install(如果安装了就不用再安装了)
运行命令:

wget http://peak.telecommunity.com/dist/ez_setup.py
python ez_setup.py

(六)、安装w3lib
命令如下:

sudo easy_install -U w3lib

(七)、安装Scrapy
运行命令:

sudo easy_install Scrapy

很多人在配置的过程中屡屡受挫,总是爆出各种各样的错误,主要原因就是前期准备工作没做好,工欲善其事,必先利其器,准备工作做好了,一下就能安装成功。

好了,环境搭建结束,接下来我们讲一下如何新建一个scrapy项目,过程如下:
假设我们要将scrapy项目创建建在桌面上,打开终端,输入以下命令:

cd Desktop
scrapy startproject myFirstCrawler

现在,我们会发现在桌面上有一个名为myFirstCrawler的文件夹,此时,在终端输入以下命令:

tree myFirstCrawler
[/cdoe]
如果没有tree命令的话,则安装一个(ps:只是建议安装一个)
会在终端出现如下结果:
myFistCrawler/
├── myFistCrawler
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│   └── __init__.py
└── scrapy.cfg

2 directories, 6 files
这就表明你已经成功的创建了一个项目。
稍微解释一下,scrapy.cfg中存储的是该项目的配置文件
myFirstCrawler/spiders文件夹中主要存储你所写的各种爬虫
myFirstCrawler/settings.py中则主要是存储爬虫的一些配置信息
在终端进入你所创建的项目,输入scrapy然后回车,此时会发现文件夹中多了很多*.pyc文件,这就证明你的项目已经成功创建。
好了,下一篇博客我将讲一下scrapy爬取网页。

One thought on “Ubuntu中搭建scrapy框架

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.