›› 2015, Vol. 28 ›› Issue (12): 167-.

• 论文 • 上一篇    

大数据处理流程及存储模式的改进

孙红,郝泽明   

  1. (1.上海理工大学 光电信息与计算机工程学院,上海 200093;2.上海现代光学系统重点实验室,上海 200093)
  • 出版日期:2015-12-15 发布日期:2015-12-15
  • 作者简介:孙红(1964—),女,副教授。研究方向:计算机网络通信与云计算等。E-mail:sunhong_sh@sohu.com。郝泽明(1989—),男,硕士研究生。研究方向:控制理论与控制工程。
  • 基金资助:

    国家自然科学基金资助项目(61170277;61472256);上海市教委科研创新重点基金项目(12zz137);沪江基金资助项目(C14002)

Research on Processing and Storage Mode of Big Bata

SUN Hong,HAO Zeming   

  1. (1.School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;
    2.Shanghai Key Lab of Modern Optical System,Shanghai 200093,China)
  • Online:2015-12-15 Published:2015-12-15

摘要:

结合大数据的特点,提出以标签云改进方案来快速识别网络热搜词,同时考虑到传统的数据仓库在查询、存储结构化数据方面的优势,在目前学者提出的数据仓库与Hadoop平台结合的基础上,提出了协作模式中与以往不同的数据迁移方式,即使用数据中间件,并通过相同数量记录导入Hadoop的时间比较,得出文中所提的数据迁移方法较Sqoop方法更具优势的结论。

关键词: 大数据, 数据存储, 数据分析, Hadoop, 标签云

Abstract:

Based on the characteristics of big data,the paper proposes quickly recognizing top search queries by the tag cloud.It also introduces the advantages of the traditional data warehouse in query and storage structure,and puts forward a different method of data transfer from the traditional ones in the collaboration mode,which is based on the combination of data warehouse and Hadoop platform.The data middle ware is used,and a comparison between the time taken for the same quantity of records to be introduced into Hadoop shows that the method proposed is superior to Sqoop.

Key words: big data;data storage;data analysis;Hadoop;the tag cloud

中图分类号: 

  • TP311