850.com  
公司简介 产品体系www.5335.com 解决方案 咨询与服务 新闻中心 联系我们
 
永利国际娱乐网址 首页  -  解决方案

内容搜索服务系统白皮书V6.0

 

一、概述

互联网已成为最大的信息中心。传统的方式是通过报纸、杂志收集或通过google、百度进行检索。但google、百度的信息不及时且内容检索的不准确,同样限制了快速获取有用的信息。

搜索服务系统可以更好的解决上述问题。搜索服务系统能实时监控和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,及时将最新内容及时发布出来,实现统一的信息导航功能,同时提供包括全文检索、日期(范围)检索、标题检索、URL检索等在内的全方位信息查询手段。系统可以根据用户的浏览喜欢,适当为用户提供相关的检索信息。为了更方便用记能快速检索到数据,系统提供了提示词功能以及相关的检索信息等。

二、系统构成

系统由采集管理、检索管理、信息管理、日志管理、用户管理、监测统计六部分构成。

系统提供从互联网采集信息,进行分类、分析后导入资源库,并可有选择的在网站发布的功能。

采集系统基于超链分析技术,实现对目标网站web页面的信息进行采集。主要功能包括:

l  实时采集网站中发布的各种网页信息,包括静态网页和动态网页;

l  支持增量式的信息采集模式;

l  -850.com能够对多种网页类型的信息进行采集,包括:静态网页,如htmlxmlshtmlrss等;动态网页:如phpjspasp等几十种动态网页。

l  系统还能够采集由JavaScript生成的动态超链信息。

l  除各种形式的网页信息外,系统还支持对网页中链接的多种文档格式进行采集,支持的文档格式有:MS-WORD850.comRTFPPTPPSPDF、以及TXT文件等;

l  可采集文章正文中的图片,包括GIFJPG等图形文件格式;

l  采集过后的数据信息可以通过XML、文件和数据库的方式进行存储,便于用户对其进行二次利用,并提供相应的XML规范和数据库接口;

l  分类采用成熟的主题-关键词技术进行信息的自动归类,分类后的信息根据不同字段属性存储在XML文件或数据库中,以便用户对信息实时监控;

l  信息管理中,系统自动把相关规则下的信息,进行自动分类;

l  检索模块提供全文检索,包括高级检索(模糊,前缀,时间段等方式)。还可以根据配置文件定制检索方式,满足不同环境下的产品需求。提供分布式访问,根据和独立的IP和端口绑定,独立向外提供服务;

l  管理采用基于WEB的管理方式,能够实现对整个搜索引擎系统进行全面的系统管理。

系统提供全文检索,包括高级检索(模糊,前缀,时间段等方式)。还可以根据配置文件定制检索方式,满足不同环境下的产品需求。提供分布式访问,根据和独立的IP和端口绑定,独立向外提供服务。

采用先进中文分词技术,充分保证检索的正确性。单机即可支持每秒上百次的并发请求,同时支持多机方案。包括:高效的内存索引技术、灵活的检索排序方式、检索结果动态摘要技术、中英文混合检索、N次渐进式检索、多条件组合检索。搜索服务系统在多项中文智能计算技术基础上,针对海量信息处理和多种应用系统的需要,提供丰富强大的检索功能。搜索服务系统支持基元检索、复元检索、组配检索、支持逻辑检索、支持中英文检索、支持GBK、支持Unicode、支持n阶渐进检索、支持同义词检索、支持自定义用户词典等。

检索流程图为:

对数据信息进行格式化

数据索引模块

索引库

权限过滤模块对信息级别进行判断

用户检索页面

索引检索模块

远程数据源信息

本地数据源信息(可以是数据库,文件系统等数据存储介质)

三、系统功能

1.        采集管理模块

采集管理模块主要包含:网站采集、数据库采集、目录采集和任务执行。

l  网站采集:用户可以通过配置,对各类型的网站进行采集;

l  数据库采集:用户可以适当的配置,对不同类型的数据库中的数据,进行采集;

l  目录采集:对磁盘上的批定类型的文件,进行数据采集,用于数据的重用和数据的检索;

l  任务执行:用户对于采集管理下不同类型的任务,配置定时启动时间;

2.        检索管理模块

检索管理管理模块主要包含:索引库管理、索引数据管理、词典管理、权重调整、信息导航、模板管理、搜索引擎推广。

l  索引库管理:索引库管理包括新建索引库、数据建索引、优化索引等操作;

l  索引库数据管理:提供对索引库中的索引数据的管理功能;

l  词典管理:用户可以通过词典管理功能为索引过程建立同义词典、提示词词典、禁用词词典,具体操作包括新建同义词、删除同义词和查找同义词;

l  权重调整:用户可以通过权重调整,对检索词进行调整,以提高所查询词在信息中所占比重;

l  模板管理:模板管理是用于管理网站前端查询列表界面的设置,用户可以通过上传管理功能方便定义多个模板,用于不同网站的检索使用;

l  搜索引擎推广:把相关的信息推荐到主流的搜索引擎主,如百度和360搜索等;

l  信息导航:用户可以配置关键词与应用地链的关联,在用户检索关键词时候,可以为检索用户提供应用地址的入口;

3.        信息管理

信息管理模块主要包含:分类管理、信息共享。

l  分类管理:分类管理是定义一定的分类规则,把所采集的数据,放入指定的分类,对分类数据,可以以xml格式把分类数据进行导出,也可以按指定的分类,对数据进行发布展示;

l  信息共享:信息共享是把指定分类的数据,通过数据接口,推送到内容管理平台;

4.        日志管理

日志管理模块主要包含:系统日志、采集日志、检索日志。

l  系统日志:系统日志主要记录了管理员对系统的操作日志,包括用户的登录与退出;

l  采集日志:采集日志主要记录了采集模块对指定规则网站所采集记录的日志;

l  检索日志:检索日志主要记录了前台检索用户所检索的信息以及用户检索打开的信息;

5.        用户管理

用户管理模块主要包含:用户管理、角色管理和用户授权。

l  用户管理:用户管理主要功能是对登录后台的用户进行增删改查;

l  角色管理:角色管理主要功能是对后台管理角色进行增删改查的操作;

l  用户授权:为系统中所存在的用户,授予相关的角色;

6.        监测统计

监测统计模块主要包含:系统监测、采集统计和检索统计。

l  系统监测: 系统监测主要负责监测系统采集模块、搜索模块与管理模块的系统负载情况,功能模块的状态及模块的详细信息。其主要呈现形式体现为:饼状图、柱状条形图、折线图和列表。

l  采集统计:采集统计是用来统计采集服务,对指定规则的采集任务的采集情况,以柱状图来表示各采集任务的采集情况;

l  检索统计:检索统计是统计前台检索用户的检索情况,可以按区域进行统计、按检索量、检索词进行统计;

四、产品特点

l  检索采用国内较为先进中文分词技术,充分保证检索的正确性。

l  管理采用基于WEB的管理方式,能够实现对整个搜索引擎系统进行全面的系统管理。

l  采用内存索引技术,能够将网页信息立即在系统内存中建立索引,使用户在检索时能够立即得到最新信息。

l  支持多种检索结果排序方式,可按抓取时间排序,或按相关度排序等等。相关度根据关键词在文献中出现的位置,频率等综合计算出来。

l  采用动态摘要技术,即检索结果能够根据用户提交的关键词在标题和正文中出现的位置和频率,自动的为每条检索结果生成摘要信息,并且关键词在摘要中以红色反显。

l  支持对中文或英文检索词的单独检索,对于用户输入的中文和英文的混合信息,检索子系统依然能够正确的对检索词进行处理,并返回正确的检索结果。

l  N次渐进式检索即“在结果中检索”。用户可以在检索结果中继续输入检索词进行检索,提供无限次的渐进检索,直到帮助用户找到检索目标,实现精确定位所要查找的信息。

l  提供多种检索条件可供用户选择,包括:在标题中检索、在正文中检索,以及按照时间范围检索等。用户可以选择单一条件输入检索词检索,也可以按照上述多种条件进行组合条件检索。

五、运行环境

软件配置建议:

l  操作系统:Windows系列、LinuxUnix等各种平台。

l  应用服务器:TomcatJbossWeblogicTongwebApusic等。

l  数据库:OracleMysqlDMGbaseKingbaseOscar等。

l  最终用户端:MS Internet Explorer 6.0 以上。

硬件配置建议:

序号

设备

指标

配置要求

数量

备注

1

应用

服务器

处理器

2*Intel双核处理器(4*2.0GHzCPU或更好)

2

内存

4GB DDR400 ECC 内存或更好 8DIMM插槽以上

硬盘

3*146GB 10krpm Ultra320热插拔SCSI硬盘Raid1或更好

网卡

双千兆网卡接口或更好

【打印】 【关闭】
北京航天四创软件技术有限责任公司
地址:北京市海淀区阜成路16号航天科技大厦B座6层 京ICP备07502835号-1
850.com