工业大数据分析

发布者:刘显敏发布时间:2021-08-23浏览次数:10



项目概述

工业大数据分析项目旨在针对工业制造过程中产生的海量数据,研究数据的分析理论与关键技术。实现传统工业制造向智能制造转变的一个重要标志,就是对工业大数据的全面、深入分析和利用。如何充分挖掘工业设计、生产、采购、销售、售后服务等各阶段产生的大数据中所蕴含的潜在知识,以此来优化工业制造流程、升级产业结构,是发展智能制造的关键。然而,当前学术界和产业界面临着缺少针对工业特定场景的大数据分析模型、工业大数据质量低下、无法直接用于分析挖掘,以及缺少满足多种场景实时性需求的分析算法等亟待解决的问题。此外,如何将大数据分析的结果合理反馈到工业场景中,真正优化和改善相关流程,也是值得深入探究的问题。项目组探究工业大数据分析模型、工业大数据质量和分析算法方面的理论与技术,探究合理的工业大数据分析结果回馈技术,并探索示范应用,填补工业大数据分析领域的研究空白,为传统工业向智能制造转型升级贡献力量。

项目组组在工业大数据分析模型、工业大数据质量、工业大数据分析算法、工业大数据结果回馈技术等方面取得了一系列研究成果,相关成果在SIGMODICDETKDE等国内外重要学术会议和期刊发表。出版专著2本,申请专利40余项。此外,课题组基于基础研究成果,完成了系统原型的研制,并成功搭建了示范应用。项目研究的主要研究成果概述如下。

1 工业大数据分析研究模块图


 A.制造业大数据分析模型

针对制造业大数据分析场景复杂多变、对模型需求多样化的特点,研究了制造业大数据分析自动建模方法,具体贡献如下:

  • 对制造业大数据分析场景和分析模型需求进行了全面的产业调研和文献综述

  • 设计并开发了面向制造业大数据分析的自动建模语言和工具

  • 提出了面向制造业大数据分析的模型自动选择和参数自动优化方法

针对制造业生产、供应链和售后阶段的典型场景和主要需求,研究了面向应用的大数据分析模型,具体贡献包括:

  • 提出多变量调优的LSTM时间序列预测模型

  • 提出基于实例迁移的风功率预测模型

  • 提出基于迁移学习的功率预测多模型集成方法

  • 基于神经网络的销量预测模型

  • 提出基于动态符号分析的燃机燃料系统异常检测模型


 B.制造业大数据质量分析与清洗技术

针对制造业大数据分析依赖高质量数据,而制造业中产生的原始数据质量较低的矛盾,课题组研究了制造业大数据质量分析与清洗技术。依据制造业大数据的来源,主要从时间序列数据质量分析与清洗和关系型数据质量分析与清洗两方面展开了研究。

在时间序列数据质量分析与清洗方面,具体贡献如下:

  • 提出不完整时间序列的修复算法

  • 提出基于对抗神经网络的复杂时间序列修复

  • 提出基于相关性分析的工业时序数据异常检测方法

  • 提出基于速度约束的时间序列异常值检测与修复方法

  • 提出缺少时间戳情况下基于规则的时序数据实体识别研究

在关系型数据质量分析与清洗方面,具体贡献如下:

  • 提出扫描数据一次的不一致制造业大数据检测算法

  • 提出基于Hadoop的不一致数据检测与修复算法

  • 提出基于Hadoop的过时数据检测算法

  • 提出过时数据检测规则自动发现算法

  • 提出动态数据的时效性判定算法

  • 提出基于众包的缺失值填充优化算法

  • 提出贝叶斯网络与众包结合的缺失值填充算法

  • 提出基于知识库推理的缺失值填充算法

  • 提出基于多种方式的列表属性确定方法

  • 提出基于Map-Reduce的大数据增量真值发现算法

  • 提出基于函数依赖的真值发现算法

  • 提出多维度数据质量问题修复算法


 C.制造业大数据分析算法与支撑技术

针对制造业大数据分析对于分析算法的需求,研究了满足不同制造场景对分析算法实时性需求的多实时性分析算法,研究了劣质数据分析算法及面向工业动态过程的自适应分析算法。此外,针对制造业大数据分析算法所依赖的底层技术,研究了制造业大数据分析算法支撑技术,包括特征选择技术、数据源选择技术和计算平台优化技术。

制造业大数据分析算法的具体贡献如下:

在多实时性分析算法方面:

  • 提出制造业时序数据近似匹配算法

  • 提出基于学习摘要的数据频繁度估计

  • 提出面向特定任务的相对主数据集提取算法

  • 提出工业传感器网络上的分布式大数据实时聚集方法

  • 提出面向工业时序数据预测的Anytime算法

  • 提出大数据上基于杠杆的高精度近似聚集算法

  • 提出SFSC并行化算法

  • 提出基于并行深度学习的工业时序大数据高效分类算法

在劣质数据分析算法方面:

  • 提出不一致数据上的分类算法

  • 提出基于多分类器的不完整数据分类方法

在运行规律自适应分析算法方面:

  • 提出基于深度迁移学习的工业时序数据增量学习算法

  • 提出基于多分类器的增量学习算法

  • 提出基于迁移学习的故障预测算法

制造业大数据分析支撑技术的具体贡献如下:

  • 提出面向工业大数据的特征选择方法

  • 提出同时保留局部特征和本地特征的大数据维度约简方法

  • 提出基于数据质量的数据源选择技术

  • 提出面向制造大数据的并行系统优化方法

  • 提出基于 Apache Spark平台的灰盒性能预测模型

  • 提出基于HDFS的高效文件访问技术


 D.制造业大数据分析结果回馈技术

面向制造业大数据分析的主要需求,研究了制造业大数据分析结果回馈技术,包括基于分析结果的数据采集技术、基于分析结果的制造业知识库构建技术和分析结果可视化技术。具体贡献如下:

  • 提出基于语义知识的数据库模式集成算法

  • 提出工业传感器网络结点定位技术

  • 提出面向制造业知识图谱构造的定量知识抽取方法

  • 提出面向制造业知识图谱构造的事理知识抽取方法

  • 提出工业知识图谱的错误检测算法

  • 提出基于工业知识库的实时查询技术

  • 提出基于抽样的制造业大数据快速可视化方法


 E.制造业大数据分析原型系统和示范应用

在制造业大数据分析理论和关键技术研究的基础上,课题组研发了面向制造业大数据分析的原型系统,并针对西奥电梯、浙江微宏物联科技有限公司等具有代表性的浙江省制造企业探索了示范应用。

在制造业大数据分析原型系统方面,具体贡献如下:

  • 设计并开发了工业时间序列清洗系统

  • 设计并开发了混合错误类型数据清洗系统

  • 设计并开发了通用制造数据交互式自动分析系统

  • 设计并开发了柔性生产线加工参数在线优化系统

  • 设计并开发了生产线高级计划排程系统


原型系统

  (1)通用制造数据交互式自动分析系统

制造业的特点是中小型企业多,呈块状经济。这些企业的信息化程度逐步提高,而且获得的数据量巨大且稳步增长。这对大数据分析提出了迫切的需求,然而,大多数中小型制造企业不能负担专业数据分析咨询和系统开发的开销。针对这种现状,课题组提出了一种面向制造企业中非大数据分析专家的大数据分析系统架构,该系统可以完成大多数制造业中存在的数据分析任务,并且没有数据分析知识或经验的人也可以容易地定义数据分析任务。

为此,课题组归纳定义了专门描述制造业数据分析任务的声明式语言,可以直接地描述分析任务。对于这种语言,课题组设计了自动翻译算法,将声明式语言自动翻译为R语言,由R语言执行引擎执行。为了实现有效翻译,课题组提出了两类优化技术,一类根据分析任务和数据集的特点自动选择最合适的分析算法,另一类自动确定算法中部分参数的最优值,以使系统能够自主并很好地完成相应的数据分析任务。因而,该系统能够接收大部分的制造业数据分析任务,自动完成整个数据分析流程,得到用户想要的结果,且不需要用户在数据分析中有任何的介入,具有很强的通用性。


 (2)柔性生产线加工参数在线优化系统

随着工业机器人的普及,许多加工产线已经实现了一定程度的柔性化。当前,柔性产线的特点是能够对中小批次、同种类型、不同型号的产品进行快速响应。在生产过程中,工程技术人员预先为每种类型的产品设计加工方案,预设加工参数并开发相应的机器人控制程序。当特定产品需要加工时,控制系统调用相应的控制程序实现加工。加工参数的设置对于产品合格率具有显著的影响。然而,工程技术人员在针对具体型号产品预设加工参数时,只能依赖人工经验。由于产品的多样性、产线的复杂性和加工环境的不确定性,预设的参数往往不能满足实际生产需要。此时,只能依赖有经验的工作人员在实际生产过程中对加工参数进行合理调整,以满足对产品质量的要求。

针对当前同一柔性产线上加工产品具有较高相似性的特点,课题组设计并开发了基于相似性搜索的柔性产线加工参数在线优化系统原型。系统根据产品质量检测结果,记录良品的加工参数形成知识库。当残次品产生时,系统依据当前产品的特性,采用局部敏感哈希算法实时搜索知识库中与当前产品具有最高相似度产品的加工参数,形成参数优化方案并推荐给产线工作人员,帮助工作人员快速实现加工参数优化,并减少对人工经验的依赖。该系统具有高度可配置性和良好的交互性,能够适配到所有具有上述特点的柔性生产线上。

 (3)生产线高级计划排程系统

生产计划排程是车间作业调度中最重要的环节之一。在加工设备、人力等资源有限的前提下,如何依据加工产品的需求合理分配加工资源,最大化加工效率,是制造业生产环节中至关重要的问题。然而,当前多数制造企业,尤其是以浙江省制造业为代表的中小型制造企业,仍采用人工排产的方式,由车间班组长依据自己的经验进行生产计划排程,不仅耗时耗力,且缺乏客观性和科学性。因此,课题组针对车间计划排产问题,设计并开发了高级计划排程系统原型。课题组将计划排程问题抽象为有限资源下的调度优化问题,并设计了基于遗传算法的求解方法。用户只需将订单信息、产品加工工艺和资源情况输入到系统,系统即可调用优化算法对订单加工计划进行优化排程,以最小化加工工时。排产结果以甘特图的形式展示,简单直观。该系统采用B/S架构,具有轻量级的客户端。前端页面整洁友好,便于理解,具有很强的人机交互性,便于产线上的工作人员操作使用。



论文及专著

发表论文

  1. Hao Zhang, Hongzhi Wang, Jianzhong Li, Hong Gao. A generic data analytics system for manufacturing production. Big Data Mining and Analytics, Volume: 1, Issue: 2, 2018. 160 – 171.

  2. Fei Li, Hongzhi Wang, Guowen Zhou, Daren Yu, Jiangzhong Li, Hong Gao. Anomaly Detection in Gas Turbine Fuel Systems Using a Sequential Symbolic Method. Energies 2017, 10, 724

  3. Chunnan Wang, Hongzhi Wang, Tianyu Mu, Jianzhong Li, Hong Gao:

Auto-Model: Utilizing Research Papers and HPO Techniques to Deal with the CASH problem. ICDE2020

  1. Yijie Yang, Yang Song, Yinan An, Yaping Li, Hongzhi Wang. A General Data Renewal Model for Prediction Algorithms in Industrial Data Analytics. ICPDS 2019

  2. 梁志宇,王宏志,李建中,高宏. 制造业中的大数据分析技术应用研究综述. 机械, 45(6), 1-13, 2018.

  3. Meifan Zhang, Hongzhi Wang, Jianzhong Li, Hong Gao. One-pass Inconsistency Detection Algorithms for Big Data. DASFAA 2016.

  4. Chen Ye, Hongzhi Wang, Jianzhong Li, Hong Gao, Siyao Cheng. Crowdsourcing-enhanced Missing Values Imputation based on Bayesian Network. DASFAA 2016.

  5. Hekai Huang, Hongzhi Wang, Ming Sun: Incomplete data classification with view-based decision tree. Appl. Soft Comput. 94: 106437 (2020)

  6. Hongzhi Wang, Chengquan He, Zhuping Li: A new ensemble feature selection approach based on genetic algorithm. Soft Comput. 24(20): 15811-15820 (2020)

  7. Mohamed Jaward Bah, Hongzhi Wang: A Parametric and Non-Parametric Approach for High-Accurate Outlier Detection. J. Inf. Sci. Eng. 36(2): 441-465 (2020)

  8. Zhixin Qi, Hongzhi Wang, Tao He, Jianzhong Li, Hong Gao: FRIEND: Feature selection on inconsistent data. Neurocomputing 391: 52-64 (2020)

  9. Zhixin Qi, Hongzhi Wang, Fanshan Meng, Jianzhong Li, Hong Gao: Capture Missing Values with Inference on Knowledge Base. DASFAA Workshops 2017: 185-194

  10. Yiwen Tang, Hongzhi Wang, Shiwei Zhang, Huijun Zhang, Ruoxi Shi: Efficient Web-Based Data Imputation with Graph Model. DASFAA Workshops 2017: 213-226

  11. Xiaoou Ding, Hongzhi Wang, Yitong Gao, Jianzhong Li, Hong Gao: Determining the currency of dynamic data. ACM TUR-C 2017: 17:1-17:6

  12. Shanshan Han, Hongzhi Wang, Jialin Wan, Jianzhong Li: An Iterative Scheme for Leverage-Based Approximate Aggregation. ICDE 2019: 494-505

  13. Jinglin Peng, Hongzhi Wang, Jianzhong Li, Hong Gao. Set-based Similarity Search for Time Series. SIGMOD 2016

  14. Zhiyu Liang, Hongzhi Wang: Efficient class-specific shapelets learning for interpretable time series classification. Inf. Sci. 570: 428-450 (2021)

  15. Yiming Lin, Hongzhi Wang, Jianzhong Li, Hong Gao: Data source selection for information integration in big data era. Inf. Sci. 479: 197-213 (2019)

  16. Junxiong Wang, Hongzhi Wang, Chenxu Zhao, Jianzhong Li, Hong Gao: Iteration acceleration for distributed learning systems. Parallel Computing 72: 29-41 (2018)

  17. Yiming Lin, Hongzhi Wang, Shuo Zhang, Jianzhong Li, Hong Gao. Efficient quality-driven source selection from massive data sources. Journal of Systems and Software. Volume 118, August 2016, Pages 221–233.

  18. Mehak Khan, Hongzhi Wang, Adnan Riaz, Aya El-Fatyany, Sajida Karim: Bidirectional LSTM-RNN-based hybrid deep learning frameworks for univariate time series classification. J. Supercomput. 77(7): 7021-7045 (2021)

  19. Zhiyu Liang, Hongzhi Wang: Efficient class-specific shapelets learning for interpretable time series classification. Inf. Sci. 570: 428-450 (2021)

  20. Mehak Khan, Hongzhi Wang, Alladoumbaye Ngueilbaye: Attention-Based Deep Gated Fully Convolutional End-to-End Architectures for Time Series Classification. Neural Process. Lett. 53(3): 1995-2028 (2021)

  21. Zhixin Qi, Hongzhi Wang: Dirty-Data Impacts on Regression Models: An Experimental Evaluation. DASFAA (1) 2021: 88-95

  22. Amina Belhassena, Hongzhi Wang. Trajectory big data processing based on frequent activity. Tsinghua Science & Technology 24(3):317-332.

  23. Yanjie Wei, Hongzhi Wang, Shengfei Shi, Hong Gao, Jianzhong Li: Any-Time Methods for Time-Series Prediction with Missing Observations. BigData Congress 2017: 427-430

  24. 王鹤澎,王宏志,李建中,高宏.不一致数据上精确决策树生成算法.软件学报,2017,28(11):28142824.

  25. Wei Qu, Siyao Cheng, and Hongzhi Wang. Efficient File Accessing Techniques on Hadoop Distributed File Systems. ICYCSEE 2016, Part I, CCIS 623, pp. 350–361, 2016.

  26. Jinglun Li, Shengfei Shi, and Hongzhi Wang. Optimization Analysis of Hadoop. ICYCSEE 2016, Part I, CCIS 623, pp. 520–532, 2016.

  27. Hongzhi Wang, Amina Belhassena: Parallel trajectory search based on distributed index. Inf. Sci. 388: 62-83 (2017)

  28. Ruoxi Shi, Hongzhi Wang, Tao Wang, Yutai Hou, Yiwen Tang, Jianzhong Li, Hong Gao: Similarity Search Combining Query Relaxation and Diversification. DASFAA (2) 2017: 65-84

  29. Boya Ren, Hongzhi Wang, Jianzhong Li, Hong Gao. Life-long learning based on dynamic combination model. Applied Soft Computing, Volume 56, July 2017, Pages 398-404.

  30. Ming Sun, Hongzhi Wang, Fanshan Meng, Jianzhong Li, Hong Gao: Incomplete Data Classification Based on Multiple Views. APWeb (2) 2016: 239-250

  31. Mohamed Jaward Bah, Hongzhi Wang, Mohamed Hammad, Furkh Zeshan, Hanan Aljuaid: An Effective Minimal Probing Approach With Micro-Cluster for Distance-Based Outlier Detection in Data Streams. IEEE Access 7: 154922-154934 (2019)

  32. Hongzhi Wang, Zheng Wang, Ning Li, Xinxin Kong: Efficient OLAP algorithms on GPU-accelerated Hadoop clusters. Distributed and Parallel Databases 37(4): 507-542 (2019)

  33. Meifan Zhang, Hongzhi Wang, Jianzhong Li, Hong Gao: Learned sketches for frequency estimation. Inf. Sci. 507: 365-385 (2020)

  34. 齐志鑫,王宏志,周雄,李建中,高宏.劣质数据上代价敏感决策树的建立.软件学报,2019,30(3):604-619

  35. Chunnan Wang, Hongzhi Wang, Chang Zhou, Jianzhong Li, Hong Gao: ECOQUG: An Effective Ensemble Community Scoring Function. ICDE 2019: 1702-1705

  36. Hongzhi Wang, Ning Li, Jianzhong Li, Hong Gao: Parallel algorithms for flexible pattern matching on big graphs. Inf. Sci. 436-437: 418-440 (2018)

  37. Zhiyu Liang, Hongzhi Wang, Jianzhong Li, Hong Gao: IMOptimizer: An Online Interactive Parameter Optimization System Based on Big Data. DASFAA Demo 2019: 581-584

  38. Hongzhi Wang, Xiaoou Ding, Xiangying Chen, Jianzhong Li, Hong Gao: CleanCloud: Cleaning Big Data on Cloud. CIKM 2017: 2543-2546

  39. Zhiyu Liang, Hongzhi Wang, Jijia Yang: STRATEGY: A Flexible Job-Shop Scheduling System for Large-Scale Complex Products. DASFAA (3) 2020: 766-770

  40. Zhiyu Liang, Hongzhi Wang, Hao Zhang, Hengyu Guo: GMDA: An Automatic Data Analysis System for Industrial Production. DASFAA (3) 2020: 780-784


项目联系人:王宏志(wangzh@hit.edu.cn)