• 北大核心期刊(《中文核心期刊要目总览》2017版)
  • 中国科技核心期刊(中国科技论文统计源期刊)
  • JST 日本科学技术振兴机构数据库(日)收录期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于客户端-服务器的容错神经网络训练架构

何梦 许达文

何梦, 许达文. 基于客户端-服务器的容错神经网络训练架构[J]. 微电子学与计算机, 2021, 38(10): 73-78. doi: 10.19304/J.ISSN1000-7180.2021.0035
引用本文: 何梦, 许达文. 基于客户端-服务器的容错神经网络训练架构[J]. 微电子学与计算机, 2021, 38(10): 73-78. doi: 10.19304/J.ISSN1000-7180.2021.0035
He Meng, Xu Dawen. Fault-tolerant neural network training framework based on client-server[J]. Microelectronics & Computer, 2021, 38(10): 73-78. doi: 10.19304/J.ISSN1000-7180.2021.0035
Citation: He Meng, Xu Dawen. Fault-tolerant neural network training framework based on client-server[J]. Microelectronics & Computer, 2021, 38(10): 73-78. doi: 10.19304/J.ISSN1000-7180.2021.0035

基于客户端-服务器的容错神经网络训练架构

doi: 10.19304/J.ISSN1000-7180.2021.0035
基金项目: 

国家自然科学基金面上项目 61874124

详细信息
    作者简介:

    何梦  女,(1995-),硕士研究生.研究方向为深度学习加速. Email: hemeng@mail.hfut.edu.cn

    许达文  男,(1986-)博士,副教授.研究方向为GPU通用计算与嵌入式系统

  • 中图分类号: TP183

Fault-tolerant neural network training framework based on client-server

  • 摘要: 为了实现低功耗和实时推理,AIoT设备近年来被应用于深度学习中的多个领域.然而,一些制造工艺导致AIoT设备在推理时会出现软错误.对于具有大量计算的神经网络加速器来说,可能会导致大量的计算误差和巨大的预测精度损失,这对于像自主无人机这样精度敏感的应用来说是无法忍受的.而传统的容错技术(如三重模块化冗余)会带来相当大的功耗和性能损失.本文提出了一种客户端-服务器协同的容错神经网络训练框架.在训练中采用带有软错误的AIoT处理器作为客户端,然后服务器端通过AIoT设备的应用数据学习到计算错误.实验中选取了多个具有代表性的神经网络模型.相比于离线训练的模型,该方法训练的模型使神经网络的top5精度平均提高2.8%.
  • 图  1  典型多层神经网络结构

    图  2  输入特征图和卷积核的简单映射方案

    图  3  基于客户端-服务器的容错训练框架

    图  4  深度学习加速器数据路径的修改

    图  5  离线训练和容错训练下不同神经网络模型的top5预测精度比较

    图  6  批处理大小对模型精度的影响

    表  1  四个典型神经网络的特征

    神经网络名称 模型大小 卷积层数量
    ResNet18 1.2 MB 20
    VGG11 128.9 MB 8
    MobileNet 3.3 MB 52
    SqueezeNet 1.3 MB 26
    下载: 导出CSV
  • [1] WANG Y, XU J, HAN Y, et al. DeepBurning: automatic generation of FPGA-based learning accelerators for the neural network family[C]//201653nd ACM/EDAC/IEEE Design Automation Conference. IEEE, 2016: 1-6.
    [2] CHEN T, DU Z, SUN N, et al. DianNao: a small-footprint high-throughput accelerator for ubiquitous machine-learning[J]. ACM SIGARCH Computer Architecture News, 2014: 269-284.
    [3] LOH K. 1.2 fertilizing AIoT from roots to leaves[C]//IEEE International Solid-State Circuits Conference. IEEE, 2020: 15-21
    [4] DIXIT A, WOOD A. The impact of new technology on soft error rates[C]//2011 International Reliability Physics Symposium. IEEE, 2011: 5B. 4.1-5B. 4.7.
    [5] KERSANDT K, G, BARRADO C. Self-training by reinforcement learning for full-autonomous drones of the future[C]//2018 IEEE/AIAA 37th Digital Avionics Systems Conference. IEEE, 2018: 1-10.
    [6] ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115-118. doi:  10.1038/nature21056
    [7] STERPONE L, VIOLANTE M. Analysis of the robustness of the TMR architecture in SRAM-based FPGAs[J]. IEEE Transactions on Nuclear Science, 2005, 52(5): 1545-1549. doi:  10.1109/TNS.2005.856543
    [8] SAMAJDAR A, ZHU Y, WHATMOUGH P, et al. Scale-Sim: Systolic CNN accelerator[J]. arXiv preprint arXiv: 1811.02883, 2018.
    [9] REAGEN B, GUPTA U, PENTECOST L, et al. Ares: a framework for quantifying the resilience of deep neural networks[C]//55th ACM/ESDA/IEEE Design Automation Conference. IEEE, 2018: 1-6.
  • 加载中
图(6) / 表(1)
计量
  • 文章访问数:  80
  • HTML全文浏览量:  43
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-01-07
  • 修回日期:  2021-01-28
  • 刊出日期:  2021-10-05

目录

    /

    返回文章
    返回