最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

数据库全文检索方案建议书

来源:动视网 责编:小OO 时间:2025-10-03 00:41:41
文档

数据库全文检索方案建议书

厦门巨龙软件工程公司数据库全文检索系统项目建议书百度在线网络技术(北京)有限公司Baidu.com(Beijing)Co.,Ltd.2005年百度公司版权所有,2005本文档涉及百度公司机密未经百度公司的书面允许,不得对此文档进行复制或传播目录1概述31.1现状分析31.2提供检索服务的必要性31.3搜索技术需求说明42解决方案建议52.1建设目标52.2系统建设原则52.3系统结构62.3.1信息导入子系统72.3.2信息索引子系统82.3.3信息检索服务子系统82.3.4信息管理子系统10
推荐度:
导读厦门巨龙软件工程公司数据库全文检索系统项目建议书百度在线网络技术(北京)有限公司Baidu.com(Beijing)Co.,Ltd.2005年百度公司版权所有,2005本文档涉及百度公司机密未经百度公司的书面允许,不得对此文档进行复制或传播目录1概述31.1现状分析31.2提供检索服务的必要性31.3搜索技术需求说明42解决方案建议52.1建设目标52.2系统建设原则52.3系统结构62.3.1信息导入子系统72.3.2信息索引子系统82.3.3信息检索服务子系统82.3.4信息管理子系统10
厦门巨龙软件工程公司

数据库全文检索系统项目建议书

百度在线网络技术(北京)有限公司

Baidu.com (Beijing) Co., Ltd.

2005年

百度公司版权所有, 2005

本文档涉及百度公司机密

未经百度公司的书面允许,不得对此文档进行复制或传播

目   录

1概述    3

1.1现状分析    3

1.2提供检索服务的必要性    3

1.3搜索技术需求说明    4

2解决方案建议    5

2.1建设目标    5

2.2系统建设原则    5

2.3系统结构    6

2.3.1信息导入子系统    7

2.3.2信息索引子系统    8

2.3.3信息检索服务子系统    8

2.3.4信息管理子系统    10

2.3.5开发接口    10

2.4核心技术    11

2.5性能    13

3 系统运行平台    13

3.1网络运行环境    15

3.2硬件运行平台    15

3.3软件运行平台    15

4 服务体系    15

1概述

1.1现状分析

厦门巨龙软件工程公司是一家专业从事软件开发、系统集成、咨询服务和技术服务的国家级重点高新技术企业;致力于信息化、信息化、企业信息化建设;。各个系统数据繁多,结构化数据和非结构化数据都有,是一个综合信息平台。信息存储在多个数据库中,随着业务量增长,信息量持续高速增长,数据量庞大(百万级),数据管理的复杂度大幅增加,特别是对数据库检索提出了更高要求,仅由商业数据库自身带有的检索功能,随着数据量的增加是远远不能满足用户需求的。目前数据库检索的存在问题如下:

1.数据库自身技术存在缺陷

不擅长文本字段检索,不支持两个以上单词复合检索

2.数据库系统性能

在大数据量,多用户进行查询操作时,效率非常低下

检索请求占用数据库大量资源,产生雪崩效应,数据库性能急剧下降

3.对中文分词处理

商业数据库本身不具备分词的技术,在检索的准确性方面难以保障。

4.数据库检索不能针对大对象检索。

对于数据库中存储的BLOB字段的二进制流的文件,数据库没有检索功能。即对非结构化数据不支持检索。

百度全文检索系统采用先进的中文分词技术,支持数据量大,访问量高,性能高,稳定性强,效率高,数据实时同步,能很好为用户提供性能优异的检索服务。

1.2提供检索服务的必要性

信息只有成功的传递到使用者手中,才能真是体现其价值。因此信息开发和利用包括两个重要环节:信息的积累和有效传递,二者缺一不可。所以在注重信息积累的同时,也要提供查找信息的便利手段,实现信息有效传递,从而完善信息的开发和利用环节。

✓数据整合

信息的不断积累造成信息量庞大,并且,信息类型种类繁多。所有各种信息都要为用户服务。所以作为信息传递之最有效的方式-检索系统,要能对多重信息源进行整合后,提供检索功能,以确保用户在最短的时间能找到他想要的信息

✓提高用户检索体验,最大限度方便用户

信息量总在不断增长,日常工作繁忙,事务众多,在浩瀚的数据中,你是否曾为找不到某个文件而耗费了大量时间?又或者因为查找速度太慢,而放弃?只需一个专业的检索,这些烦恼就可迎刃而解。

1.3搜索技术需求说明

1、良好的可扩展性。未来扩展所查询的数据库的内容时,代价最小。

2、能够提供自定义的输出控制,如结果读取条数、摘要类型等。

3、提供同义词的自定义接口和格式。

4、提供对多文档的支持,包括Word, Excel, PPT, PDF, txt, HTML等。

5、提供相关开发接口。

6、多种数据源:多数据库,用户检索时以统一的形式体现。

7、数据同步方式,要求数据可以实时索引;即数据变化发送到检索系统后,检索系统可以立即反映出来。

8、检索响应速度:1秒内返回搜索结果。

9、大数据量,大并发用户数 

2解决方案建议

2.1建设目标

为了提高用户查检信息的速度与效率,建议采用先进的搜索引擎技术建设业务信息检索平台,提供一个集中、灵活的信息检索入口。

该软件设计上遵循开放、兼容、高扩展性、高安全性的原则。从而使整个系统结构合理,技术先进,易于扩展,既能满足目前的信息服务需求,又能符合发展的要求。   对软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;百度作为世界一流的信息检索与传递技术公司,可以保证全文检索系统在技术上长期的先进性。

●检索方便易用,符合用户搜索习惯

●支持千万级数据量

●保证检索信息全面,及时,准确

●检索速度快,响应时间短

●检索系统稳定,支持大并发用户

2.2系统建设原则

搜索引擎系统,采用先进的数学模型和智能化的检索方式,建立一个安全、稳定、准确、及时的内容检索系统。整个系统在总体设计上遵循开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。

●外挂式原则:系统采用外挂式模式,信息获取功能由全网内容搜索引擎系统处理,减轻用户服务器压力。

●先进性原则:软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水平。

●兼容性原则:本系统在产品选型与开发技术上都选择了完全支持JAVA或JAVA产品和技术,在兼容性上好过同类产品的性能和技术。同时,对整个方案中的其他子系统在数据处理和网络的稳定性上没有任何影响。

●经济性原则:本系统在平台架构、技术选择上具有很高的先进性、可扩充性、开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。

●易维护性原则:整套系统的数据维护简单,容易操作,完全通过WEB方式完成。降低维护的技术难度,也减少了人为隐患的发生。

2.3系统结构 

全文检索系统建立在多层(Multi-Tier)开放式的架构上。需要检索系统能够实现实时监控数据库等系统的数据库中的数据变化,并获取变化信息,对获取到的数据进行分词后建立索引,提供高效的检索服务。并整合到系统管理平台中,配合管理员的权限分配和管理来实现用户的分权限检索。

系统架构图如下: 

主要有四个子系统组成:信息导入系统、信息索引子系统、信息检索服务子系统和系统管理子系统,如下图所示:

通过百度网事通全文检索系统解决方案,为厦门巨龙软件工程公司综合信息服务系统的多类型海量信息数据提供了高速和准确的响应,数据实时更新,完美实现了该系统作为厦门巨龙软件工程公司内外息交互共享平台的作用。

2.3.1信息导入子系统

信息导入子系统处理数据库中数据,信息导入模块将这些数据读取出来,调用检索系统API交给检索核心模块。

DB1

DB2

DB3

本系统可以实时同步索引数据,当源数据发生变化时,比如数据的增加、删除和修改等操作反映到搜索系统后,可以立即体现到检索结果上。

数据导入模块有两个工作模式:一个是初始化模式,这种模式下将历史数据全部导入搜索系统;另一个模式是监控模式,这种模式下扫描数据变化(UPDATE/INSERT/DELETE),将这些变化的信息读取后送给搜索核心处理。就是说在数据库的信息变化后,检索系统的索引数据也对应变化。

2.3.2信息索引子系统

信息索引子系统负责对信息进行智能分词,并建立索引库。

信息索引子系统支持智能分词,高效索引。按照检索要求灵活定制索引库数据结构,

支持对数据更新的多种操作,如:增加、修改和删除,进行增量索引。

支持数据更新的实时索引。

支持千万量级数据索引。

2.3.3信息检索服务子系统

信息检索服务子系统提供检索服务,它接受用户的查询请求,并根据高效的优化算法从索引库中提取出符合条件的记录。本系统包括检索页面,检索处理模块、检索结果显示以及检索结果到详细内容页面的连接。

✓系统结构图:

本系统提供了两个接口,XML接口和JAVA API接口。

当为B/S结构时,可以调用java api接口。检索条件和检索结果页面可以嵌入到b/s系统中。

当为C/S结构时,直接调用xml接口,检索条件和检索结果页面可以嵌入到c/s系统中。

✓简单检索页面展示

普通检索页面提供便捷的查询方式,这种检索在标题和内容中查找符合条件的信息。

✓高级检索页面展示

组合检索

组合检索,用户可以灵活地选择自己的查询条件,控制检索结果的显示风格,如每页显示结果记录数。

✓检索结果页面展示

检索结果页面示例

显示结果需要显示字段:标题,相关度,摘要,时间。

显示结果排序:相关度,时间升降序。

关键词的反显(高亮):查询关键词在标题中以特殊颜色显示,进一步帮助增加界面的友好。

可以选择模糊查询,比如配置两个或多个词为同义词,检索任一词时,查到含有所有这些同义词的信息。。

2.3.4信息管理子系统

百度网事通提供功能强大的灵活的管理模块,管理员能够方便地对整个系统进行管理并根据实际情况进行本地的设置,包括:系统重启控制,同义词配置等。

2.3.5开发接口

本系统提供了以下的接口模式,以方便与各类客户系统的无缝连接,保证检索系统的平稳运行。

⏹百度提供 XML标准输入输出,方便用户对原始数据的操作。

⏹百度提供基于JDBC模式的Java API接口。便于应用的快速构建和二次开发的高效进行。

2.4核心技术

检索子系统采用了百度的先进中文分词技术,充分保证检索的正确性。分词是专对汉语语言的一种处理,和英语不同,汉语是基于词的,例如检索“民主”不应返回含有“”的结果。单机即可支持每秒上百次的并发请求,同时支持多机方案。

高效的内存索引技术

检索子系统采用了内存索引技术,能够将最新采集到的信息,立即在系统内存中建立索引,使用户在检索时能够立即得到最新信息。

大规模数据支持

检索子系统采用先进的算法,建立高效索引库,用户在提交检索请求后,系统能够以亚秒级的速度返回检索结果,即使在千万级数据量的情况下,检索子系统的特有处理内核,依然可以提供理想的高性能和高处理效率,能够保证一分钟内返回检索结果。

大访问量支持

检索子系统采用了分布式响应技术,能够支持高并发的检索请求,在实际使用环境中,系统支持的并发检索请求不低于50个,在理想的测试环境中,系统支持的并发检索请求不低于200个。

灵活的检索排序方式

检索子系统支持多种检索结果排序方式,可按抓取时间排序,或按相关度排序等等。相关度根据关键词在文献中出现的位置,频率等综合计算出来,算法先进。

检索结果动态摘要技术

检索子系统采用动态摘要技术,即检索结果能够根据用户提交的关键词在标题和正文中出现的位置和频率,自动的为每条检索结果生成摘要信息,并且关键词在摘要中可以反显。

支持多种字符集编码

检索子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等。

支持中英文混合检索

检索子系统支持对中文或英文检索词的单独检索,对于用户输入的中文和英文的混合信息,检索子系统依然能够正确的对检索词进行处理,并返回正确的检索结果。

支持模糊检索

检索子系统支持模糊功能,即同义词检索。可以在系统字典中定义若干同义词,可以选择模糊查询。 

支持渐进式检索

渐进式检索即“在结果中检索”。用户可以在检索结果中继续输入检索词进行检索,可以帮助用户逐渐缩小检索范围,精确定位所要查找的信息。

支持多条件组合检索

检索子系统提供多种检索条件可供用户选择,包括:在标题中检索、在正文中检索,以及按照时间范围检索等。用户可以选择单一条件输入检索词检索,也可以按照上述多种条件进行组合条件检索。

支持检索词逻辑表达式

用户输入的检索词可以是一个词,也可以是多个词。多个检索词之间可以组成复杂的与、或、非等逻辑表达式。

2.5性能

1.大规模数据:检索系统支持百万级数据量,并且可以扩展到支持千万级的数据量

2.大访问量:百万级数据量,可支持50各并发检索请求,亚秒级响应。在目前客户应用中,系统提供200万次/天的检索访问能力

3.数据的同步实时能力:通过独创的实施数据同步(包括增加、删除、更新)机制,检索系统能够保证在分级时间内将数据库的数据变化信息体现在检索系统中。

4.索引膨胀率小

3 系统特点

1、检索速度快,极大提高工作效率。

目前几百万数据量,能做到1秒内返回,大大节省了用户等待的时间。

2、准确率高。

先进的分词技术,切词精确,能准确快速定位到用户要查找的信息。

3、稳定性强。

对系统异常终止的数据保护和修复能力,异常终止索引模块后不会导致索引数据破坏后不可修复。对高并发访问的承受能力强。

4、将反病毒信息系统,综合信息系统,行长专页系统数据分别建立索引库,便于数据的管理维护。

5、支持非结构化数据,比如解析能力强。

6、数据库中信息变化,响应快,能分钟级同步到索引库中,保证数据实时更新

7、分担目前数据库压力,承担了最消耗系统资源的检索部分。

8、特有的检索日志功能,方便用户统计维护,既可以有关键字的排行榜,又可以对每个时段的检索量做统计。

   可以了解使用者意图,了解用户检索动态。

系统运行平台

3.1网络运行环境

搜索引擎系统所在的网络要能够支持TCP/IP协议。

3.2硬件运行平台

系统运行在PC级的服务器上即可表现优秀的性能,服务器标准配置如下:

《百度网事通全文检索系统》服务器基本配置:

CPUIntel Pentium 2.0G 

内存2GB
硬盘73GB,SCSI接口

根据实际情况增加CPU,内存和硬盘等资源即可。

3.3软件运行平台

操作系统:RedHat Linux 7.3

4 服务体系

百度具有大项目的实施能力与经验:

百度的项目实施服务部门负责项目实施,目前已实施过各种类型企业级客户四百余家。

根据系统建设的目标与实施规划,我们的系统建设采用整体规划,分步实施,依照软件工程项目管理规范、结合用户的需求、时间要求、有组织,有计划的进行。

百度项目组长负责依照软件工程项目管理规范、结合用户的需求、时间要求、制定《项目实施计划书》,项目组长还负责与客户的沟通,并向客户汇报项目进展情况,协调项目组成员工作。百度的实施工程师负责按照《项目实施计划书》进行系统实施,包括软件安装、设置、调试、二次开发。培训讲师负责客户应用管理的培训工作。百度项目组内部建立项目汇报机制,项目组成员向项目经理汇报,项目经理向项目监督汇报。客户项目负责人负责协调客户资源,需求的提出,项目的验收,客户在对项目的实施或服务不满意时可以向百度项目监督投诉。

图中每个角色都是百度的一组工程师

百度的售后服务介绍:

技术支持和维护服务内容

●故障排除  

●技术咨询

●版本升级

●软件更新

服务方式

●电话支持

●电子邮件技术支持

●传真、信件技术支持

●网络远程技术支持

●现场技术支持

5案例介绍

“百度网事通kernel全文检索系统”目前已经为中国专利局,,天津泰达开发区档案馆,信城通(国家检疫检验总局下属公司),卓越网,辽宁质量监督局,东方家园以及中国人民银行总行等建立了专业的全文检索系统。

中国人民银行案例分析

以中国人民银行总行为例,简单介绍百度全文检索系统的应用情况。

人行的内网系统主要分为:办公系统,反病毒系统,行长专页系统,业务处理系统等若干系统。各个系统数据繁多,结构化数据和非结构化数据都有。目前主要是为3个系统提供检索服务:办公系统,反病毒系统以及行长专页系统。需要检索系统能够实现实时监控OA数据库、反病毒数据库和行长专页数据库中的数据变化,并获取变化信息,对获取到的数据进行分词后建立索引,提供高效的检索服务。并整合到系统管理平台中,配合管理员的权限分配和管理来实现用户的分权限检索。

   系统大概框架图如下:

检索条件

检索结果

  采集

行长专页DB

反病毒DB

OA  DB

百度WST

文档

数据库全文检索方案建议书

厦门巨龙软件工程公司数据库全文检索系统项目建议书百度在线网络技术(北京)有限公司Baidu.com(Beijing)Co.,Ltd.2005年百度公司版权所有,2005本文档涉及百度公司机密未经百度公司的书面允许,不得对此文档进行复制或传播目录1概述31.1现状分析31.2提供检索服务的必要性31.3搜索技术需求说明42解决方案建议52.1建设目标52.2系统建设原则52.3系统结构62.3.1信息导入子系统72.3.2信息索引子系统82.3.3信息检索服务子系统82.3.4信息管理子系统10
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top