• 北大核心期刊(《中文核心期刊要目总览》2017版)
  • 中国科技核心期刊(中国科技论文统计源期刊)
  • JST 日本科学技术振兴机构数据库(日)收录期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合运动轨迹特征的多模态群体行为识别方法

王世辉 祝永新 汪辉 郑小盈

王世辉, 祝永新, 汪辉, 郑小盈. 融合运动轨迹特征的多模态群体行为识别方法[J]. 微电子学与计算机, 2021, 38(11): 7-13. doi: 10.19304/J.ISSN1000-7180.2021.0341
引用本文: 王世辉, 祝永新, 汪辉, 郑小盈. 融合运动轨迹特征的多模态群体行为识别方法[J]. 微电子学与计算机, 2021, 38(11): 7-13. doi: 10.19304/J.ISSN1000-7180.2021.0341
WANG Shihui, ZHU Yongxin, WANG Hui, ZHENG Xiaoying. Multi-modal group activity recognition method combining motion trajectory features[J]. Microelectronics & Computer, 2021, 38(11): 7-13. doi: 10.19304/J.ISSN1000-7180.2021.0341
Citation: WANG Shihui, ZHU Yongxin, WANG Hui, ZHENG Xiaoying. Multi-modal group activity recognition method combining motion trajectory features[J]. Microelectronics & Computer, 2021, 38(11): 7-13. doi: 10.19304/J.ISSN1000-7180.2021.0341

融合运动轨迹特征的多模态群体行为识别方法

doi: 10.19304/J.ISSN1000-7180.2021.0341
基金项目: 

国家重点研发计划 2020SKA0120202

国家基金委联合基金项目 U2032125

中国科学院上海高等研究院院内人才计划 E052891ZZ1

上海高等研究院与上海光源合作项目 E0560W1ZZ0

详细信息
    作者简介:

    王世辉  男,(1995-),硕士研究生.研究方向为大数据处理、行为识别

    汪辉  男,(1975-),博士,研究员.研究方向为CMOS传感器及电路研究

    郑小盈  女,(1978-),博士,副研究员.研究方向为数据挖掘

    通讯作者:

    祝永新(通讯作者)  男,(1969-),博士,研究员.研究方向为计算机系统结构、芯片系统级设计、大数据处理. E-mail: zhuyongxin@sari.ac.cn

  • 中图分类号: TP181

Multi-modal group activity recognition method combining motion trajectory features

  • 摘要:

    群体行为识别从群体层面出发,研究群体的行为及个体的动作并进行分类.准确的群体行为识别结果对安防监控、体育视频分析等领域有重要意义.针对目前基于LSTM的群体行为识别无法充分挖掘个体间在群体层面时空特征的问题,提出一种基于LSTM-Transformer的群体-个体时空特征融合群体行为识别模型.在此基础上,首次将运动轨迹特征融入群体行为识别中,提出融合运动轨迹特征的群体行为识别模型,进一步提升模型的识别效果.实验结果表明,相比现有基于LSTM的模型,所提出模型的群体行为识别准确率提升8.3%,个体动作识别准确率提升2.1%;相比基于GCN的模型,所提出模型不仅识别效果有所提升,而且可应对群体人数变化的场景.

     

  • 图 1  LSTM模型结构图

    图 2  Transformer encoder图示

    图 3  本文模型框架图

    图 4  群体行为识别混淆矩阵

    图 5  模型识别结果可视化

    表  1  模型参数设置

    参数 数值
    LSTM输入维度 512
    LSTM隐藏层维度 512
    Encoder层数 1
    Encoder维度 1 024
    Encoder heads 1
    轨迹特征提取LSTM输入维度 64
    轨迹特征提取LSTM隐藏层 128
    下载: 导出CSV

    表  2  识别准确率对比

    模型 Backbone Group Activity Individual Action
    文献[3] - 84.5 -
    文献[6] VGG16 89.3 -
    文献[2] Inception-v3 90.6 81.8
    文献[4] Inception-V3 92.5 83.0
    Base(Ours) Inception-V3 91.8 83.4
    Base+motion(Ours) Inception-V3 92.8 83.9
    下载: 导出CSV

    表  3  Transformer Encoder参数对模型的影响

    头数 层数 位置编码 Group Activity Accuracy/% Individual Action Accuracy/%
    1 1 91.0 83.3
    1 1 91.8 83.4
    2 1 91.7 83.2
    1 2 91.6 82.8
    下载: 导出CSV

    表  4  不同融合方式准确率比较

    模型 Group Activity Accuracy/% Individual Action Accuracy/%
    Base-Model 91.8 83.4
    Early-fusion 92.8 83.7
    Late-fusion 92.1 83.9
    下载: 导出CSV

    表  5  不同训练方式下模型准确率

    模型 Group Activity Accuracy/% Individual Action Accuracy/%
    Activity-Only 92.0 -
    Action-Only - 83.9
    Both 92.8 83.7
    下载: 导出CSV
  • [1] IBRAHIM M S, MURALIDHARAN S, DENG Z W, et al. A hierarchical deep temporal model for group activity recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 1971-1980. DOI: 10.1109/CVPR.2016.217.
    [2] BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: End-to-end multi-person action localization and collective activity recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu, HI, USA: IEEE, 2017: 4315-4324. DOI: 10.1109/CVPR.2017.365.
    [3] 李定, 张文生. 面向群体行为识别的注意力池化机制[J]. 中国科学: 信息科学, 2021, 51(3): 399-412. DOI: 10.1360/SSI-2020-0235.

    LI D, ZHANG WS. Attentive pooling for group activity recognition[J]. Scientia SinicaInformationis, 2021, 51(3): 399-412. DOI: 10.1360/SSI-2020-0235.
    [4] WU J C, WANG L M, WANG L, et al. Learning actor relation graphs for group activity recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, CA, USA: IEEE, 2019: 9964-9974. DOI: 10.1109/CVPR.2019.01020.
    [5] GAVRILYUK K, SANFORD R, JAVAN M, et al. Actor-transformers for group activity recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle, WA, USA: IEEE, 2020: 839-848. DOI: 10.1109/CVPR42600.2020.00092
    [6] QI M S, QIN J, LI A N, et al. stagNet: An attentive semantic rnn for group activity recognition[C]//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 101-117. DOI: 10.1007/978-3-030-01249-6_7.
    [7] 戎炜, 蒋哲远, 谢昭, 等. 基于聚类关联网络的群组行为识别[J]计算机应用, 2020, 40(9): 2507-2513. DOI: 10.11772/j.issn.1001-9081.2020010019.

    RONG W, JIANG Z Y, XIE Z, et al. Clustering relational network for group activity recognition[J]. Journal of Computer Applications, 2020, 40(9): 2507-2513. DOI: 10.11772/j.issn.1001-9081.2020010019.
    [8] SANFORD R, GORJI S, HAFEMANN L G, et al. Group activity detection from trajectory and video data in soccer[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Seattle, WA, USA: IEEE, 2020: 898-899. DOI: 10.1109/CVPRW50498.2020.00457.
    [9] WANG X L, GUPTA A. Videos as space-time region graphs[C]//Proceedings of the15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 399-417. DOI: 10.1007/978-3-030-01228-1_25.
    [10] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2017: 6000-6010. DOI: 10.5555/3295222.3295349.
    [11] GIRDHAR R, CARREIRA J, DOERSCH C, et al. Video action transformer network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, CA, USA: IEEE, 2019: 244-253. DOI: 10.1109/CVPR.2019.00033.
    [12] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI: 10.1162/neco.1997.9.8.1735.
    [13] HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice, Italy: IEEE, 2017: 2961-2969. DOI: 10.1109/ICCV.2017.322.
    [14] ZHU H L, ZHU Y X, WANG H, et al. Multiscale deep network based multistep prediction of high‐dimensional time series from power transmission systems[J]. Transactions on Emerging Telecommunications Technologies, 2020: e3890. DOI: abs/10.1002/ett.3890.
    [15] 原旭, 韩雪姣, 陈志奎, 等. 多模态特征融合的裁判文书推荐方法[J]. 微电子学与计算机, 2020, 37(12): 42-47. DOI: 10.19304/j.cnki.issn1000-7180.2020.12.009.

    YUAN X, HAN X J, CHEN Z K, et al. Judgments recommendation method based on multi-modal feature fusion[J]. Microelectronics & Computer, 2020, 37(12): 42-47. DOI: 10.19304/j.cnki.issn1000-7180.2020.12.009.
  • 加载中
图(5) / 表(5)
计量
  • 文章访问数:  219
  • HTML全文浏览量:  130
  • PDF下载量:  46
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-03-10
  • 修回日期:  2021-03-27

目录

    /

    返回文章
    返回