锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)

2016-02-08
萌泰科技
摘要:锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域,灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源,能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件,支持智能抓取网页中文本内容和背景数据,支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,具有稳定、可靠、高性能和高可扩展性。

一、概述

锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域,灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源,能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件,支持智能抓取网页中文本内容和背景数据,支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,具有稳定、可靠、高性能和高可扩展性。

二、产品功能


(1)系统集成

系统基于纯BS架构,作为子系统能集成到统一的大数据研究云平台,共享云平台的统一管理功能。

(2)项目管理

新建采集项目,支持启动、暂停和关闭;支持自定义互联网数据源,允许对采集数据源进行灵活配置,支持智能抓取相关网页的文本内容和背景数据;抓取的数据能够同时存储到数据库和文件。

(3)数据抓取

基本分布式爬虫框架;能够抓取门户类、新闻类、论坛类、文献类平台的数据;能进根据数据源配置关键词组合、时间范围、子频道等,实现定向的基于关键词的数据抓取;能够配置抓取线程的数量,抓取时间间隔;支持断点继续。

(4)采集监控

数据的抓取的过程能够实时监控和管理。


三、特色和优势


(1)分布式爬虫架构

平台采用基于分布式爬虫架构,可实现高效的多线程,可扩展的的动态采集;

(2)多数据源采集

支持抓取主流门户、新闻、论坛、文献等各类数据源;

(3)面向主题的采集

支持灵活配置各类检索条件,实现面向主题的数据采集。




    发表评论
    评论通过审核后显示。
    友情链接:美高梅彩票官网  一分快三购彩平台  f88体育网站  澳门金沙城中心  皇家88  人民彩票注册  致富彩票登录  澳门皇冠体育平台  365bet彩票娱乐平台  大发pk10官方