›› 2014, Vol. 27 ›› Issue (10): 111-.

• 论文 • 上一篇    下一篇

基于改进HMM的半结构化文本信息抽取算法研究

孙师尧,妙全兴   

  1. (武警工程大学 信息工程系,陕西 西安 710086)
  • 出版日期:2014-10-15 发布日期:2014-10-17
  • 作者简介:孙师尧(1990—),男,硕士研究生。研究方向:自然语言处理。E-mail:531276845@qq.com。妙全兴(1965—),男,教授,硕士。研究方向:信息抽取。

Algorithm Research for Semi-structured Text Information Extraction Based on Hidden Markov Model

SUN Shiyao,MIAO Quanxing   

  1. (Department of Information Engineering,Engineering University of CAPF,Xi'an 710086,China)
  • Online:2014-10-15 Published:2014-10-17

摘要:

在分析半结构化文本特点与隐马尔可夫模型的基础上,提出了一种新的基于隐马尔可夫模型的信息抽取算法,并与传统的基于单一隐马尔可夫模型的信息抽取算法进行了比较分析。实验结果表明,所提算法在精确度上有明显优化,特别在状态特征不明显的情况下仍能保持良好的精确度。将该算法应用于半结构化文本的信息抽取中,具有较好的可行性和有效性。

关键词: 隐马尔可夫模型, 半结构化, 信息抽取

Abstract:

A new algorithm based on Hidden Markov Model is proposed for semi-structured text information extraction.Compared with the traditional algorithm,the simulation results show that the proposed algorithm has obvious optimization on the precision and recall rate,especially still maintianed good accuracy in few state features.The proposed algorithm appears good feasibility and validity in the application of semi-structured text information extraction.

Key words: HMM;semi structured;information extraction

中图分类号: 

  • TP391