自动机器学习技术

发布者:刘显敏发布时间:2021-08-23浏览次数:10

概述


自动机器学习项目的目标挑选出最佳的模型和超参数设置来解决特定问题。根据没有免费的午餐定理,对所有任务都普遍更优的数据分析模型是不存在的,不同模型解决不同任务实例的能力不尽相同,而且它们往往存在许多超参数影响其性能。如何帮助这些用户针对给定的任务实例快速有效地选择合适的模型和超参数设置是一个重要研究问题。


Auto ML框架


在我们的方法中,针对模型自动建立和参数自动调优,研究知识经验的人工智能建模和应用方法,并设计了基于知识驱动的方法,提出了面向数据特征和分析需求的数据分析自动模型建立和参数自动调优的技术,解决了面向需求的数据分析精准模型与最优参数自主生成这一难题。


相较于已有技术,我们提出的技术有以下优势:

    • 无需实现模型进行大量实验测试以获取所需性能特征,可大量节省大量时间及资源,有效解决了现有技术耗时长的问题;

    • 覆盖了更多的数据分析模型以获取更优方案,解决了现有技术预定义搜索空间小的问题;

    • 可在相同时间内选择更优的分类算法及超参数设置,获取更精准的分类模型;


应用


数据分析任务的复杂性日益增加,这使得它依赖于人类的专业知识,对非专家来说也是具有挑战性的。数据分析面临的主要挑战之一是为给定的任务和数据集选择合适的算法。受此启发,我们开发了Assassin,旨在帮助没有足够专业知识的用户自动选择分类任务的最优算法。通过嵌入元学习技术和强化策略,我们的系统可以自动从以前的任务中提取经验,并训练一个元分类器来执行算法推荐,然后应用遗传搜索来探索所选算法的超参数配置。


工作流程


Assassin的目标是选择一种具有可调优超参数配置的算法,以获得给定数据分析任务的最大性能。为了实现这一目标,我们提出了基于历史经验的算法自动选择策略和HPO的搜索空间剪枝算法。系统架构如图所示,Assassin由以下3个模块组成,EE模块完成经验提取,OW负责算法选择和HPO。此外,我们还开发了用于交互的用户界面模块。


系统界面


Assassin具有以下特点:

1)完全自动化。我们的系统实现了算法选择和HPO全过程的自动化。用户只需要上传分类任务的数据集,就可以在不需要人工干预的情况下提供最优算法及其超参数;

2)高精度。实验结果表明,Assassin能够为用户任务选择更高性能的算法,证明了本系统的有效性;

3)用户友好。无论是专家还是非专家用户都可以通过图形界面快速上手。特别设置了定制模式,方便用户修改系统参数设置;


论文


[1]Chunnan Wang, Hongzhi Wang, Chang Zhou, Hanxiao Chen: ExperienceThinking: Constrained hyperparameter optimization based on knowledge and pruning. Knowl. Based Syst. 223: 106602 (2021)


[2]Chunnan Wang, Hongzhi Wang, Tianyu Mu, Jianzhong Li, Hong Gao: Auto-Model: Utilizing Research Papers and HPO Techniques to Deal with the CASH problem. ICDE 2020: 1906-1909


[3]Tianyu Mu, Hongzhi Wang, Shenghe Zheng, Shaoqing Zhang, ChengLiang, and Haoyun Tang. Assassin: an Automatic claSSificAtion systembaSed on algorithm SelectIoN . PVLDB, 14(12): 2751 - 2754, 2021.


联系人:王宏志(wangzh@hit.edu.cn)