PHP蜘蛛爬虫项目

phpspider是一个爬虫开发框架。使用本框架,你不用了解爬虫的底层技术实现,爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码,就可以创建自己的爬虫,利用框架封装的多进程Worker类库,代码更简洁,执行效率更高速度更快。

应用介绍

# phpspider -- PHP蜘蛛爬虫框架

《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言 》所使用的程序 

phpspider是一个爬虫开发框架。使用本框架,你不用了解爬虫的底层技术实现,爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码,就可以创建自己的爬虫,利用框架封装的多进程Worker类库,代码更简洁,执行效率更高速度更快。

demo目录下有一些特定网站的爬取规则,只要你安装了PHP环境,代码就可以在命令行下直接跑。 

下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

```

$configs = array(

    'name' => '糗事百科',

    'domains' => array(

        'qiushibaike.com',

        'www.qiushibaike.com'

    ),

    'scan_urls' => array(

        'http://www.qiushibaike.com/'

    ),

    'content_url_regexes' => array(

        "http://www.qiushibaike.com/article/\d+"

    ),

    'list_url_regexes' => array(

        "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"

    ),

    'fields' => array(

        array(

            // 抽取内容页的文章内容

            'name' => "article_content",

            'selector' => "//*[@id='single-next-link']",

            'required' => true

        ),

        array(

            // 抽取内容页的文章作者

            'name' => "article_author",

            'selector' => "//div[contains(@class,'author')]//h2",

            'required' => true

        ),

    ),

);

$spider = new phpspider($configs);

$spider->start();

```

爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用```$spider = new phpspider($configs);```和```$spider->start();```来配置并启动爬虫.

#

文件列表(部分)

名称 大小 修改日期
phpspider0.00 KB2020-06-12
autoloader.php1.89 KB2020-03-56
composer.json0.95 KB2020-03-56
core0.00 KB2020-06-00
cache.php2.45 KB2020-03-56
constants.php1.54 KB2020-03-56
db.php16.83 KB2020-03-56
init.php2.80 KB2020-03-56
log.php3.18 KB2020-03-56
phpspider.bak20170807.php87.37 KB2020-03-56
phpspider.php116.29 KB2020-03-56
queue.php38.93 KB2020-03-56
requests.php31.44 KB2020-03-56
selector.php17.43 KB2020-03-56
util.php26.79 KB2020-03-56
worker.php12.76 KB2020-03-56
demo0.00 KB2020-06-00
13384.php5.91 KB2020-03-56
52mnw.php3.46 KB2020-03-56
mafengwo.php5.15 KB2020-03-56
mafengwo.sql1.80 KB2020-03-56
qiushibaike.php4.19 KB2020-03-56
qiushibaike.sql1.61 KB2020-03-56
qiushibaike_css_selector.php4.00 KB2020-03-56
qiushibaike_task.php5.12 KB2020-03-56
test_requests.php1.01 KB2020-03-56
hacked-emails0.00 KB2020-06-00
banners.txt5.14 KB2020-03-56
hacked_emails.php1.77 KB2020-03-56
library0.00 KB2020-06-00
cls_curl.php12.24 KB2020-03-56
cls_query.php7.74 KB2020-03-56

立即下载

相关下载

[PHP蜘蛛爬虫项目] phpspider是一个爬虫开发框架。使用本框架,你不用了解爬虫的底层技术实现,爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码,就可以创建自己的爬虫,利用框架封装的多进程Worker类库,代码更简洁,执行效率更高速度更快。

评论列表 共有 0 条评论

暂无评论

微信捐赠

微信扫一扫体验

立即
上传
发表
评论
返回
顶部