Python加密模块有好几个,但无论是哪种加密方式都需要先导入相应的加密模块然后再使用模块对字符串加密
当我们说“上下文”的时候,指的是程序在执行中的一个状态
parse可以返回Request列表,或者items列表,如果返回的是Request,则这个Request会放到下一次需要抓取的队列,如果返回items,则对应的items才能传到pipelines处理
使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行
Python 支持格式化字符串的输出 。尽管这样可能会用到非常复杂的表达式,但最基本的用法是将一个值插入到一个有字符串格式符 %s 的字符串中
Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程
创建多个spider, scrapy genspider spidername domain
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML
类定义:class <类名>: <语句> 类实例化后,可以使用其属性,实际上,创建一个类之后,可以通过类名访问其属性
发布时间:2011-02-14
发布时间:2011-03-24
发布时间:2011-01-24
发布时间:2010-11-15
发布时间:2011-03-08
发布时间:2011-02-17
发布时间:2011-02-22
发布时间:2011-01-20
发布时间:2010-11-15
发布时间:2010-12-24
发布时间:2011-03-08
发布时间:2011-02-06