首 页 | 学会概况 | 学会资讯 | 项目推荐 | 会员动态 | 入会申请 | 留言板 | 联系我们
当前位置:首页>>项目推荐  
 


网络信息采集工具 TBS·News
--------------------------------------------------------------------------------------
2007-12-28    
【大】 【中】 【小】 【打印】【关闭】  
----------------------------------------------------------------------------------------

网络信息采集工具 TBS News

TBSNEWS是金信桥网络技术有限责任公司开发的一套以Internet/Intranet信息抓取为目的的跨平台软件,主要用于指定网络信息的抓取,实现在用户自定义的规则下,自动从互联网上的http服务器(或其它服务器)上抓取指定信息的功能。
  TBSNEWS具有很强的灵活性,能根据用户的需求,到某一网站抓取用户想要的特定栏目下的信息,比如:新闻数据、商业数据、股市数据……它仅仅要求用户设定特定的抓取条件,设定抓取时间间隔,所有用户感兴趣的内容就会自动地被抓取和保存下来。从而实现由用户上网找信息转变为信息自动流向用户,使用户及时得到最新最准确的信息与数据。
  TBSNEWS系统采用B/S结构,用户界面友好,容易实施部署。TBSNEWS抓取服务器可以在Windows、Linux平台下运行。系统稳定性很高,可以在“7天×24小时”运行模式下长时间地运行。


功能特色
 对设定所需网站或栏目信息进行实时搜集、分析和加工整理,并将信息自动入库、索引。
 周期性地扫描网站和页面,能及时发现更新的页面,避免重复,对数据实时更新。
 搜集到的信息可以按照不同的分类方式,以动态信息显示在单位局域网的主页上,并且保留原文链接。用户可以按照日期、来源、标题进行检索、浏览。
 可以对抓取的信息进行全文检索、组合检索和二次检索,检索到的信息可以进行数据批量导出。
 可以人为地对数据库进行数据的批量增加及删除。
 提供交互式界面,自动生成抓取规则。


系统架构
  TBSNEWS产品的完整应用方案包括:信息采集平台、信息处理平台、信息发布平台和全文检索系统。信息采集平台对动态网站进行信息自动抓取,将信息存储在有关目录下。系统记录抓取历史状态,避免信息重复抓取,每隔一定时间,循环抓取。信息处理平台对收集来的信息进行过滤、整理、标引、入库,将信息存储在本地的数据库中。 信息发布平台自动将处理后的信息发布到内部网站,呈现在用户面前,并保留原文链接,供用户查看。 全文检索系统可以在最短的时间内,对用户提出的查询要求作出反应,给出查询结果。

 

信息采集平台
 对动态网站进行信息自动抓取,可抓取文本、图片、PDF、超文本等。
 抓取程序自动记录抓取的历史状态,避免信息重复。
 用户可指定时间段抓取:每隔一定时间,循环试抓对信息正文进行提取,支持“与”或“非”的提取,特别是对“不包含”提取的支持。
 对提取的标题或正文自动进行简繁体转化。
 提供管理模板,使系统管理员能够自行增加新的网站配置,将配置任务加入到系统后,自动对新站点进行信息抓取。
 能提供模拟“人工访问模式”的功能扩展。

 

全文检索系统
  对入库的数据信息可以进行按某个字段浏览、记录浏览、全文检索、组合检索,或在任何检索结果中进行表达式检索、逻辑检索、模糊检索、多库检索、二次检索,也可以实现对日期型的字段进行范围检索等功能。

 

信息发布平台
  通过信息发布平台,管理员可以在任何时间、任何地点针对采集到的信息进行发布、管理和维护。系统支持多种类型、多个站点的管理与发布,无论是局域网、互联网,仅需一套系统即可完全部署,方便资源共享,降低系统成本、减少维护量,提高了工作效率。

 

应用领域
  TBSNEWS适用于对本行业或特定种类信息有需求的各类机关、协会、企事业单位、网站等用户,在Internet上抓取指定信息,用于内部使用或外网发布。

 

成功案例
 中央统战部
 国际资料中心
 中国物流信息中心
 中国疾病预防控制中心
 中国消费者协会

等等

     
     [下一篇]:TBS资源数字化加工管理系统