近日,计算机与信息工程学院大数据智能处理团队王雅娣和左宪禹等在高维大规模数据特征选择领域取得新进展,研究成果发表在《IEEE Transactions on Neural Networks and Learning Systems》、《Pattern Recognition》等计算机科学学科TOP期刊上。


特征选择是机器学习中至关重要的步骤,旨在从原始特征集合中筛选有效子集,降低数据维度、提升模型性能并避免过拟合。高维大规模数据、复杂特征结构等典型特点给特征选择带来性能“不精准”、结果“难解释”、计算“效率低”等挑战。为解决上述挑战,团队基于信息论、稀疏学习和神经动力学等理论,提出了新的全局冗余最小化特征选择框架,显著提升了特征选择性能。
监督特征选择是一个混合整数优化问题,目标函数为加权特征冗余和相关性,并受特征数量的基数约束。通过增广惩罚函数实现基数约束,该问题被转化为有界约束的混合整数优化问题。进一步加入双线性和线性等式约束,实现完整性约束后,问题转化为具有两个附加罚项的有界约束双凸优化问题。研究团队提出了两种协同神经动力学优化(CNO)方法,用于解决所提出和重新表述的特征选择问题。其中一种 CNO方法使用离散时间递归神经网络(RNN),另一种则使用在两个时间尺度上同时运行的一对连续时间投影网络。相关成果“Supervised Feature Selection via Collaborative Neurodynamic Optimization”发表在计算机科学学科中科院一区TOP期刊《IEEE Transactions on Neural Networks and Learning Systems》上。
由于真实数据集往往缺乏完整的标签信息,无监督特征选择是各个领域中的重要研究课题。为了获得更优的特征子集,研究提出一种最大化相关性和最小化全局冗余的无监督特征选择算法。在相关性方面,提出了一种基于谱聚类的无监督特征选择算法(SCFS)。在冗余度方面,SCFS 算法只考虑了特征的相关性,忽略了特征之间的冗余度,这可能会选择降低性能的冗余特征。针对这一问题,研究提出了一种基于 SCFS 和 Jensen-Shannon 散度的全局冗余最小化模型,以优化特征的相关性得分。相关成果“Unsupervised feature selection via maximum relevance and minimum global redundancy”发表在计算机科学学科中科院一区TOP期刊《Pattern Recognition》上。

论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0031320325001438
https://ieeexplore.ieee.org/document/9931730
王雅娣,女,博士,副教授,博士生导师。主要从事机器学习和神经动力学等领域的研究工作,研究涉及基于信息论的特征选择方法、面向高维数据的稀疏正则化模型以及神经动力学优化。主持国家自然科学基金青年项目1项、河南省优秀青年基金1项,河南省重点研发与推广专项(科技攻关)项目1项、河南省高等学校重点科研项目1项,参与国家自然科学基金面上项目3项,参与国家重点研发计划1项。担任多个领域重要国际期刊和会议的审稿人;曾担任多个国际会议的分会主席、程序委员会委员,包括ICIST2021、ICIST2022等。入选开封市科技创新人才。近五年,在IEEE Transactions on Cybernetics, Pattern Recognition, Applied Mathematical Modeling, IEEE/CAA Journal of Automatica Sinica, SCIENCE CHINA Information Sciences, Neural Networks, Knowledge-Based Systems等期刊发表高水平学术论文30余篇,授权与申请发明专利6项。
左宪禹,男,教授,博士生导师,博士毕业于中国工程物理研究院计算数学专业。河南省高校科技创新团队负责人,主要从事高性能计算和大数据处理等领域的研究工作,近年来发表学术论文40余篇,主持国家重点研发计划“政府间国际科技创新合作”专项课题1项、国家民用空间基础设施中长期发展规划(2015-2025年)课题2项、河南省重大科技专项1项、国家自然科学基金项目1项、国防科技工业民用专项项目1项,授权国家发明专利7项、软件著作权5项,荣获河南省科学技术奖3项。