›› 2015, Vol. 28 ›› Issue (12): 110-.

• 论文 • 上一篇    下一篇

程序代码相似度度量中词法分析器的设计实现

于海英   

  1. (内蒙古财经大学 计算机信息管理学院,内蒙古 呼和浩特 010070)
  • 出版日期:2015-12-15 发布日期:2015-12-15
  • 作者简介:于海英(1976—),女,副教授。研究方向:数据挖掘。E-mail:yuhaiying@163.com
  • 基金资助:

    内蒙古自治区高等学校科学研究基金资助项目(NJZY13200)

Design and Implementation of Lexical Analyzer in Program Source Code Similarity Measurement

YU Haiying   

  1. (College of Computer Information and Management,Inner Mongolia Finance and Economics University,Hohhot 010070,China)
  • Online:2015-12-15 Published:2015-12-15

摘要:

针对程序代码相似度度量中的词法分析问题,提出了一种基于语言词典的词法分析器的设计和实现方案。通过对程序源码进行预处理,将其转换为一个字符串,然后对该字符串逐字符进行分解,得到构成源代码的每一个标识符Token,并判断其类型,实现对程序源码的词法分析。实验结果表明,该方法能有效分析程序源码的词汇构成情况。

关键词: 词法分析器, 标识符Token, 语言词典, 源码分析

Abstract:

A design and implementation scheme of lexical analyzer based on language dictionary is proposed for lexical analysis in program source code similarity measurements.The program source codes are converted first into a string,which is decomposed character by character to obtain each token of the program source codes,whose type is judged for lexical analysis.Experimental results show the scheme can effectively analyze the lexical structure of the program source codes.

Key words: lexical analyzer;Token;language dictionary;source code analyzing

中图分类号: 

  • TP311.11