中国·bb贝博艾弗森(有限公司)-官方网站

bb贝博艾弗森官方网站教师学术讲坛(三十三)——《小样本场景的音频分类方法研究》

2025-09-24 来源: 作者:孟稼祥 审核:

2025年9月23日,bb贝博艾弗森官方网站教师学术讲坛(三十三)在bb贝博艾弗森官方网站二层209会议室举行。本次讲坛以《小样本场景的音频分类方法研究》为主题,由bb贝博艾弗森官方网站青年教师孟稼祥作分享报告,软件工程系全体教师参加了此次学术活动。

孟稼祥深入分析了音频分类面临标记数据匮乏问题时所呈现的痛点,并从研究背景、研究方法及研究内容三个方面分享了其在模型构建问题和特征表示问题上的主要解决思路。在模型构建方面,小样本分类模型的表达能力不足以覆盖所有任务,严重影响类别特征信息的分析;同时,数据量和模型结构间的不平衡,增加了模型关注重点信息的难度。在特征表示方面,数据的不均衡影响特征空间的完整探索;同时,泛化性特征挖掘受到数据多样性和复杂性的影响。

因此,他以深度神经网络为基础,首先在解决小样本场景下模型表达能力失衡问题上,提出了一种基于注意力关系原型网络的音频分类方法,克服数据跨类差异信息分析提取问题;其次在面对小样本分类模型结构冗余问题上,提出一种基于像素注意力胶囊网络的音频分类方法,克服轻量模型对重点信息的关注度缺失问题。此外,为进一步对神经网络在小样本环境下的特征提取能力进行优化,首先以自监督学习为框架,构建一种基于特征对抗增强的空间自编码器网络模型,利用以双声学特征空间为基础的辅助任务,并结合强化正负样本的挖掘来保证模型融合学习更具鉴别力和鲁棒性的声学特征。最后,小样本场景下数据多样性不足导致的泛化性特征挖掘困难问题,提出基于门控标签学习的双阶段迭代半监督网络模型,以少量标记数据和大量无标记数据保证数据的多样性,利用门控标签学习通过选取可靠伪标签数据的方式,更好地捕捉数据表征的全局分布,提取泛化性特征。

此次孟稼祥的学术分享不仅展示了在音频分类领域解决小样本场景的解决办法,同时也为促进了教师间的相互了解与合作,也鼓励大家要多尝试开展学术交流和科研探索,从不同的研究领域中激发全新的科研创新视角。

XML 地图