• 北大核心期刊(《中文核心期刊要目总览》2017版)
  • 中国科技核心期刊(中国科技论文统计源期刊)
  • JST 日本科学技术振兴机构数据库(日)收录期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于邻域搜索的在线特征大数据分类方法

李越颖

李越颖. 基于邻域搜索的在线特征大数据分类方法[J]. 微电子学与计算机, 2021, 38(9): 61-66.
引用本文: 李越颖. 基于邻域搜索的在线特征大数据分类方法[J]. 微电子学与计算机, 2021, 38(9): 61-66.
LI Yueying. Big data classification method of neighborhood search for online feature selection[J]. Microelectronics & Computer, 2021, 38(9): 61-66.
Citation: LI Yueying. Big data classification method of neighborhood search for online feature selection[J]. Microelectronics & Computer, 2021, 38(9): 61-66.

基于邻域搜索的在线特征大数据分类方法

基金项目: 

河南省科技攻关项目 172102210450

详细信息
    作者简介:

    李越颖  女,(1982-),硕士,讲师.研究方向为模式识别、计算机网络技术.E-mail: 3169646479@qq.com

  • 中图分类号: TP391.1

Big data classification method of neighborhood search for online feature selection

  • 摘要: 针对现有算法在处理海量数据集时处理效率低的问题,提出一种基于邻域搜索的在线特征选择(neighborhood search for online feature selection, NSOFS)并行大数据分类方法.在Map阶段,将大数据集进行分块,针对动态未知特征空间,通过萤火虫算法和模拟退火算法的优化,对于在线特征进行邻域搜索,选择最佳特征集,将获得的特征集作为Reduce阶段输入特征,然后使用内核支持向量机(Kernel Support Vector Machine, KSVM)对数据分类.实验结果表明:所提方法在精确率、召回率、F值和时间等性能方面优于其他现有方法.
  • 图  1  Map矩阵与TempMap对应关系

    图  2  不同算法的时间性能

    表  1  实验数据集特征参数

    数据集名称 测试样本 训练样本 特征 样本数/splite
    covertype 500 000 100 000 2 000 880
    ECBDL14 65 003 913 2 897 917 631 1 894
    下载: 导出CSV

    表  2  二元问题的混淆矩阵

    预测阳性 预测阴性
    阳性分类 真阳性(TP) 假阴性(FN)
    阴性分类 假阳性(FP) 真阴性(TN)
    下载: 导出CSV

    表  3  不同算法在covertype数据集的对比结果

    方法/性能 精确率 召回率 F值 准确率
    文献[9] 86.33 89 87.64 84.32
    文献[5] 84.45 83.13 84.23 81.09
    文献[15] 88.25 90 89.16 86.95
    本文 91.18 88.13 89.43 88.12
    下载: 导出CSV

    表  4  不同算法在ECBDL14数据集的对比结果

    方法/性能 精确率 召回率 F值 准确率
    文献[9] 76.33 79 77.64 80.31
    文献[5] 74.45 75.13 74.79 75.47
    文献[15] 80.25 82.65 81.43 83.83
    本文 87.18 85.13 86.14 84.09
    下载: 导出CSV
  • [1] ZHANG Q C, YANG L T, CHEN Z K, et al. A survey on deep learning for big data[J]. Information Fusion, 2018(42): 146-157. DOI:  10.1016/j.inffus.2017.10.006.
    [2] OUSSOUS A, BENJELLOUN F Z, LAHCEN A A, et al. Big data technologies: a survey[J]. Journal of King Saud University-Computer and Information Sciences, 2018, 30(4): 431-448. DOI:  10.1016/j.jksuci.2017.06.001.
    [3] BEAM A L, KOHANE I S. Big data and machine learning in health care[J]. JAMA, 2018, 319(13): 1317-1318. DOI:  10.1001/jama.2017.18391.
    [4] 易明雨, 肖赤心, 潘晖, 等. 用于大数据分类的快速隐层优化分布式极限学习机[J]. 计算机工程与应用, 2019, 55(16): 165-169. DOI:  10.3778/j.issn.1002-8331.1804-0352.

    YI M Y, XIAO C X, PAN H, et al. Fast hidden layer optimal extreme learning machine for big data classification[J]. Computer Engineering and Applications, 2019, 55(16): 165-169. DOI:  10.3778/j.issn.1002-8331.1804-0352.
    [5] LAKSHMANAPRABU S K, SHANKAR K, ILAYARAJA M, et al. Random forest for big data classification in the internet of things using optimal features[J]. International Journal of Machine Learning and Cybernetics, 2019, 10(10): 2609-2618. DOI:  10.1007/s13042-018-00916-z.
    [6] 林倩瑜. 云服务环境下的大数据多标签属性分类技术[J]. 微电子学与计算机, 2019, 36(2): 101-104. DOI:  10.19304/j.cnki.issn1000-7180.2019.02.021.

    LIN Q Y. Big data multi-label attribute classification technology in cloud service environment[J]. Microelectronics & Computer, 2019, 36(2): 101-104. DOI:  10.19304/j.cnki.issn1000-7180.2019.02.021.
    [7] RAMREZ-GALLEGO S, FERNNDEZ A, GARCA S, et al. Big data: tutorial and guidelines on information and process fusion for analytics algorithms with MapReduce[J]. Information Fusion, 2018, 42: 51-61. DOI:  10.1016/j.inffus.2017.10.001.
    [8] VARATHARAJAN R, MANOGARAN G, PRIYAN M K. A big data classification approach using LDA with an enhanced SVM method for ECG signals in cloud computing[J]. Multimedia Tools and Applications, 2018, 77(8): 10195-10215. DOI:  10.1007/s11042-017-5318-1.
    [9] 李佳烨, 余浩. 基于K近邻的众包数据分类算法[J]. 计算机应用研究, 2020, 37(4): 973-976. DOI:  10.19734/j.issn.1001-3695.2018.09.0736.

    LI J Y, YU H. Crowdsourcing data classification algorithm via K-nearest neighbor[J]. Application Research of Computers, 2020, 37(4): 973-976. DOI:  10.19734/j.issn.1001-3695.2018.09.0736.
    [10] HASSANAT A B A. Furthest-pair-based binary search tree for speeding big data classification using K-nearest neighbors[J]. Big Data, 2018, 6(3): 225-235. DOI:  10.1089/big.2018.0064.
    [11] 熊安萍, 蒋亚雄, 段杭彪, 等. 大数据环境下基于限定模糊规则的多分类器[J]. 计算机工程与设计, 2019, 40(4): 1145-1150. DOI:  10.16208/j.issn1000-7024.2019.04.039.

    XIONG A P, JIANG Y X, DUAN H B, et al. Multi-classifier based on limited fuzzy rules in big data[J]. Computer Engineering and Design, 2019, 40(4): 1145-1150. DOI:  10.16208/j.issn1000-7024.2019.04.039.
    [12] KAUR D, AUJLA G S, KUMAR N, et al. Tensor-based big data management scheme for dimensionality reduction problem in smart grid systems: SDN perspective[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1985-1998. DOI:  10.1109/TKDE.2018.2809747.
    [13] HU X G, ZHOU P, LI P P, et al. A survey on online feature selection with streaming features[J]. Frontiers of Computer Science, 2018, 12(3): 479-493. DOI:  10.1007/s11704-016-5489-3.
    [14] ZHOU P, HU X G, LI P P, et al. Online feature selection for high-dimensional class-imbalanced data[J]. Knowledge-Based Systems, 2017(136): 187-199. DOI:  10.1016/j.knosys.2017.09.006.
    [15] NURLAILY D, IRHAMAH, PURNAMI S W, et al. Support vector machine for imbalanced microarray dataset classification using ant colony optimization and genetic algorithm[J]. AIP Conference Proceedings, 2019, 2194(1): 020076. DOI:  10.1063/1.5139808.
  • 加载中
图(2) / 表(4)
计量
  • 文章访问数:  48
  • HTML全文浏览量:  19
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-27
  • 修回日期:  2021-02-23
  • 刊出日期:  2021-09-05

目录

    /

    返回文章
    返回