›› 2012, Vol. 25 ›› Issue (11): 118-.

• 论文 • 上一篇    下一篇

基于Python的Web数据采集技术

齐鹏,李隐峰,宋玉伟   

  1. (西安电子科技大学 电子工程学院,陕西 西安 710126)
  • 出版日期:2012-11-15 发布日期:2013-01-23
  • 作者简介:齐鹏(1987—),男,硕士研究生。研究方向:Web开发,网络安全。李隐峰(1975—),男,博士,副教授,硕士生导师。研究方向:Web开发。宋玉伟(1986—),女,硕士研究生。研究方向:Web开发。

Research on Python-based Web Scraping Technology

QI Peng,LI Yinfeng,SONG Yuwei   

  1. (School of Electronic Engineering,Xidian University,Xi'an 710126,China)
  • Online:2012-11-15 Published:2013-01-23

摘要:

针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。

关键词: Web数据抓取, 屏幕抓取, HTTP协议, Python, 正则表达式, XPath

Abstract:

In this paper web scraping technologies are discussed.The advantages of Web data collection technology for high speed and accuracy conversion of unstructured data into structured data are pointed out.The principles of the web scraping at HTTP level are introduced with emphasis on the technical solutions to Python-based web scraping.Web scraping system consists of two modules:HTTP interaction module and data analysis module.

Key words: Web scraping;screen scraping;HTTP;Python;regex;XPath

中图分类号: 

  • TP274+.2