当前位置: 首页 > >

一种基于分类的扩展向量空间信息检索模型研究与应用_论文

发布时间:

第 1 O卷 第3 3期 21 00年 1   1月 科 学 技 术 与 工 程  Vo _ 0 No 33 No . 01   11   .   v2 0 1 7 — 1 1 ( 0 0) 3 8 6 — 4 6 1 8 5 2 1 3 — 14 0   S in e T c n lg   n   n i e r g ce c   e h oo y a d E gn ei   n ⑥ 2 1  SiTc . nn . 0 0 c eh E gg .   一 种基 于 分 类 的扩 展 向量 空 间信 息  检索模型研究与应 用  李春 生 程 兆全  赵 冰   台 ( 东北石油大学计算机学院 , 大庆 13 1 ) 6 3 8  摘 要 为 了提高信息检索系统检索性能, 针对信息检 索系统中普遍使用 的向量空 间模 型( S 所 固有的缺陷, V M) 提出一种新  的 基 于分 类和 扩 展 向量 空 间模 型 C — S Cas i  xadV c r pc  oe) EV M( l ie E pn —et   aeM d1 。该 模 型对 传 统 的空 间 向量 法进 行 了改进 ,   sfr oS 引 入分 词技术、 素贝 叶斯分类器和专业词库, 朴 重新定义 了资源特征 向量和查 询 索引项 的 内容 , 参考 关键词 出现 的频率及其在  所描述 的资源 中所起的作用等因素来 计算特征 索引项和 资源 向量 的权 重值。在此 基础上 , 又对查询 索引项使用 了基于专 业   词库 的扩展策略。实验证 明该模 型使检索能够在相对精 确的范围内进行 , 高检索查准 率和 查全率 , 提 改善 了信息检 索系统 的   性能。   关键词 C —S   EV M 朴素贝叶斯分 类器  专业词典  同义扩展  中图法分类号 T 3 13  P9. ; 文献标志码 A   传 统 向量 空 间模 型 的优 势 在 于它 的简单 性 , 同  陷进行 改进 。 ( )在 对资 源数据 进行特 征化处 理 的  1 过程中, 引入 朴素 贝 叶斯 分类 器 将 所 有资 源 数 据分  时功 能确是 十分强 大 的 , 信 息检 索领 域 有 着 广泛  在 的应用  。但 是 传 统 向量 空 间 检 索 存 在 着 三 方 面  的不足 , 第一是 在传 统 V M 框架 下进行 资 源 向量表  S 类, 即数 据粗 筛 选 , 同 样 的 方 法 将 用 户 需 求 也 自 用   动 分类 匹配 ; 2 ( )在 确 定各 个 分 向量 的权 值 时根 据  示时 , 只是简单 的根 据 孤立 的词 及其 出现 频率 生 成  资源 向量 , 不 同资 源 的 区分 度 不 高 , 海 量 的 资  对 在 源向量 中进 行 检 索 时 会 生成 大 量 的 与 需 求 不 相 关  每个 关键 字 在 资 源 中所起 的 作 用 和 与 专 业 词 库 相  似度 来确定 资源 向量 。如在 网页 h 中 <tl 标  t ml ie> t 签 中出现 的关键 字所 占 的权 值相 应 的 就会 比较 大 ;   的 内容 ; 二 个 不 足 就 是 该 理 论 所 建 立 的一 个 假  第 定, 项之 间是相互 垂 直 、 交 的 , 正 在确 定 各个 分 向量  ( )在生成 描述 资 源 的特 征 向量 时 , 分词 后 得 到  3 将 的各 个孤立 关键词 与专 业 词典 中 的 内容 比对 , 进行  的权值 时 只 是 简 单 的根 据 出 现 的频 率 进 行 划 分 。   第三, 在对查 询需 求进 行 特 征 化处 理 时 忽 略 了各个  同义 词转换 , 用专业 词典 中的 内 容对原 有 向量 进 行  扩 展  特征词 之 间的依赖 关 系及 其 所 起 的不 同作 用 , 离  脱 了上 下文语 境 , 能 充 分 体 现 用 户 需 求 , 不 导致 系 统  查准 率和查全 率较 低 。   1 系统设计  本 系统 以 工 程监 理 行 业 中具 有 多 样 性 和 动 态  性 的信息 检索 需求 为应 用 背 景 , 主要 为 了解决 行 业  内部 对 已有 实 践 经 验 的 重 用 和 相关 信 息 的 获 取 与  本 文提 出 了一 种 基 于 分 类 和 扩 展 的 向量 空 间  模型 , 以监理 行 业 的 信 息 检 索 为 应 用 背 景 , 对 缺  针 21 0 0年 9月 1 日收到  3 储存等问题 , 检索部分是 主要 的研究 内容 , 整个检  索 系统模 型主要 由三个 模 块 组 成 : 询 需 求特 征 化  查 处理 、 资源 向量表 示 方 法优 化 、 息 检索 ; 了达 到  信 为 提 高查全 率和查 准 率 的要求 , 检索 模 型 有 以下 的  该 第 一 作 者 简 介 : 春 生 (9 O ) 男 , 北 省 定 州 市人 , 授 , 士  李 16 一 , 河 教 博 生导师 , 研究方 向: 人工智能及其数据挖掘。   通信作者简介 : 程兆全 。E m i: hnzaq a m@13 ci。 — a c eghoun f 6 .o   l n 3 3期  李春生 , : 等 一种基 于分类 的扩展 向量空 间信息检索模型研究与应用 86   15 特点 。 ( )引入 了朴素 贝叶斯 分类 器 J ( )优 化  1 。 2 空 间向量 的表示 方法 。 ( )将 原有 空 间向量 结合 专  3 业词 库进行 同义 扩展 表 示 , 业 词库 由领 域 专 家 总  专 结提供 。   1 1 朴素贝 叶斯分 类器  . ’   而在 网页 中处 于不 同标 签 中 的关



友情链接: