• 约317条记录,页面显示在80条内,推荐使用搜索获取文章发布时间       点击
  • 2015-09-14     65

    当我们说“上下文”的时候,指的是程序在执行中的一个状态

  • 2015-09-13     1030

    parse可以返回Request列表,或者items列表,如果返回的是Request,则这个Request会放到下一次需要抓取的队列,如果返回items,则对应的items才能传到pipelines处理

  • 2015-09-12     426

    使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行

  • 2015-09-10     64

    Python 支持格式化字符串的输出 。尽管这样可能会用到非常复杂的表达式,但最基本的用法是将一个值插入到一个有字符串格式符 %s 的字符串中

  • 2015-09-07     52

    Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程

  • 2015-09-04     437

    创建多个spider, scrapy genspider spidername domain

  • 2015-09-04     74

    Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据

  • 2015-08-29     62

    HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML

  • 2015-08-29     58

    类定义:class <类名>: <语句> 类实例化后,可以使用其属性,实际上,创建一个类之后,可以通过类名访问其属性

  • 2015-08-24     57

    yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make