(3)Scrapy命令行工具
目录
配置设置
-
C:\scrapy(project folder)\scrapy.cfg 在系统中;
-
~/.config/scrapy.cfg ($XDG_CONFIG_HOME) and ~/.scrapy.cfg ($HOME) ,这些是全局设置
-
可以在项目的根目录里面找到 scrapy.cfg 这个文件。
-
SCRAPY_SETTINGS_MODULE
-
SCRAPY_PROJECT
-
SCRAPY_PYTHON_SHELL
默认Scrapy项目结构
scrapy.cfg - Deploy the configuration file project_name/ - Name of the project _init_.py items.py - It is project's items file pipelines.py - It is project's pipelines file settings.py - It is project's settings file spiders - It is the spiders directory _init_.py spider_name.py . . .
[settings] default = [name of the project].settings [deploy] #url = http://localhost:6800/ project = [name of the project]
使用Scrapy工具
Scrapy X.Y - no active project Usage: scrapy [options] [arguments] Available commands: crawl It puts spider (handle the URL) to work for crawling data fetch It fetches the response from the given URL
创建项目
scrapy startproject scrapy_project
cd scrapy_project
控制项目
scrapy genspider mydomain yiibai.com
scrapy -h
-
fetch: 它使用Scrapy downloader 提取的 URL。
-
runspider: 它用于而无需创建一个项目运行自行包含蜘蛛(spider)。
-
settings: 它规定了项目的设定值。
-
shell: 这是一个给定URL的一个交互式模块。
-
startproject: 它创建了一个新的 Scrapy 项目。
-
version: 它显示Scrapy版本。
-
view: 它使用Scrapy downloader 提取 URL并显示在浏览器中的内容。
-
crawl: 它是用来使用蜘蛛抓取数据;
-
check: 它检查项目并由 crawl 命令返回;
-
list: 它显示本项目中可用蜘蛛(spider)的列表;
-
edit: 可以通过编辑器编辑蜘蛛;
-
parse:它通过蜘蛛分析给定的URL;
-
bench: 它是用来快速运行基准测试(基准讲述每分钟可被Scrapy抓取的页面数量)。
自定义项目命令
COMMANDS_MODULE = 'mycmd.commands'
from setuptools import setup, find_packages setup(name='scrapy-module_demo', entry_points={ 'scrapy.commands': [ 'cmd_demo=my_module.commands:CmdDemo', ], }, )
关注右侧公众号,随时随地查看教程
Scrapy教程目录