首页  软件  游戏  图书  电影  电视剧

请输入您要查询的软件:

 

软件 wind-bell风铃虫轻量级爬虫工具 v2.3.1 
内容

 wind-bell风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

【声明】 请勿将风铃虫应用到任何可能会违反法律规定和道德约束的工作中,请友善使用风铃虫,遵守蜘蛛协议,不要将风铃虫用于任何非法用途。如您选择使用风铃虫即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

风铃虫的原理极为简单,主要由 资源调度器、网页下载器、链接解析器、内容解析器、信息输出器 这极大部分组成。

他们的作用与功能如下所示:

资源调度器:负责风铃虫资源的调度过程,例如进行任务的储存、任务的调度和任务的管理

网页下载器:负责根据调度器调度的任务下载网页资源

链接解析器:负责解析网页下载器下载的网页内容,从网页内容中提取出所有符合要求的链接

内容解析器:负责对网页下载器下载的网页内容进行内容解析

信息输出器:输出内容解析器解析出来的数据

其中的链接解析器是由一系列的链接提取器组合而成,目前链接提取器主要是支持正则提取。

内容解析器由一系列的内容提取器组合而成,不同的内容提取器功能不同,适用于不同的解析场景,支持多个提取器的重复、循环等多种组合形式。

上述个组件均提供了自定义配置接口,使用户可以根据实际需要进行自定义配置,满足各种复杂乃至异常场景的要求。

风铃虫内置的内容提取器有:

原文提取器

中文提取器

常量提取器

CSS内容提取器

CSS文本提取器

邮箱提取器

数字提取器

正则提取器

字符删除提取器

字符替换提取器

字符串截取提取器

XPATH提取器

数组截取

wind-bell风铃虫轻量级爬虫工具 更新日志:

v2.3.1

更新底层依赖版本

修复安全漏洞

标签 爬虫工具,轻量级,wind-bell
缩略图
软件名称 wind-bell风铃虫轻量级爬虫工具 v2.3.1
软件图标
软件大小 78KB
发布时间
软件平台
软件语言 简体中文
软件授权 免费软件
操作系统 JAVA
系统类型
用户评分 4
软件版本
官方网站
官方网址
软件截图
软件总类 源码系统
软件大类 源码下载-软件开发-java源码-轻量级爬虫工具
软件小类 java源码
开发者
主办单位名称
ICP备案名
备案号
使用年龄
下载链接
攻略教程
详细介绍
操控设备
隐私政策
查看权限
敏感权限获取说明
软件类型 国产软件
安全警示 适度休息有益身心健康,请勿长期沉迷于使用电脑或刷手机。
随便看

 

传承兰台文化,共同保存历史记忆!兰台网收藏软件、游戏、图片、图书、电影、电视剧等互联网档案,是免费和可借阅文本、电影、音乐等档案的数字图书馆。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/16 3:26:56