ACM International Conference on Information and Knowledge Management(CIKM 2021)将于2021年11月线上举行,永利官网李熙铭副教授等的论文 "To Be or not to Be, Tail Labels in Extreme Multi-label Learning" 被录用。论文的第一作者为李熙铭副教授指导的2018级理科试验班(唐敖庆计算机班)本科生葛郅琦,通讯作者为李熙铭副教授。
极限多标签学习问题通常涉及百万级别的标签,其中包含大比例的长尾标签。实际应用场景中,长尾标签存在正样本稀疏、类别不平衡、标注缺失等诸多问题,难以准确学习识别,且大幅度增加算法的时间和空间开销。针对此问题,本文提出一种新的预处理方法用以预估长尾标签的潜在学习难度,并依此仅保留部分易于学习的长尾标签,降低算法的时间和空间开销。实验结果表明,该方法可以在维持极限分类算法性能的前提下,显著减少训练/预测时间和模型大小。
CIKM会议是数据库/数据挖掘/内容检索领域顶级国际会议(CCF B类会议)。