多模数据处理与视觉识别组
关于我们
多模数据处理与视觉识别组致力于点云数据和RGB数据的识别与处理研究。我们团队的研究领域涵盖了交通场景和电力场景,以及点云数据和RGB数据的识别与处理。
在交通场景方面,我们关注行人检测、异常行为识别等相关问题。通过对点云数据和RGB数据进行分析和处理,提高交通场景的理解和分析能力,推动交通安全和交通效率的改善。在电力场景方面,我们专注于输电通道线路树障分析、配电网线路巡检、杆塔倾斜检测、线路异物检测和线路覆冰检测等任务。通过对红外图像和 RGB 图像融合、 点云数据和RGB 数据融合进行处理和识别。这种多模态融合的方法有助于提高对电力环境和图像场景的认知和理解能力,为电力人工智能实际应用提供更好的解决方案。
我们相信通过团队的协作和努力,我们可以在这一领域取得更多的突破和创新。让我们一起共同探索多模数据处理与视觉识别的未来!
                    
               
我们的工作
(1)电力场景的点云处理技术 [视频1][视频2]
⇒ 线路通道多光谱数据树木分类:
1.种子点提取: 数据预处理完成后,需要从点云数据中提取地面点。通过分析点云数据中的高程信息,从输电线路树木点云中提取出最高点。随机选择一定数量的代表性种子点。这些种子点将作为树木分割的起始点。
2.点聚类: 对于输电线路点云数据中的每个种子点,使用邻域搜索方法找到其周围的邻近点。并依据设定的点间距离、角度、颜色等特征,确定生长准则。在满足生长准则的基础上,对每个种子点进行逐步生长,形成各自对应的树木点云集合。在区域生长过程中,将相邻的点云集合进行合并,进一步形成完整的单木点云数据。
3.多光谱数据集构建: 对多光谱数据进行标注,构建用于分类的多光谱数据集。需要分类的树木包括樟树、松树和竹子,对于其他类型的植被,我们一律标为背景。
4.模型训练与测试: 我们将多光谱分类数据集送入到深度学习网络中进行训练,对于训练好的深度学习网络模型,再对多光谱数据进行测试。最终我们获取到了多光谱数据的类别信息。
5.多光谱点云配准: 最后利用此前单木分割后的树木信息,判断每棵树木的位置是否落入到对应的多光谱数据中对应树种的范围中。由此,我们获得了通道线路点云的单木信息,包括了树木高度、树木冠层信息和树木类别。
⇒ 电力杆塔倾斜检测:提出了一种基于无人机激光点云的电力杆塔倾斜算法,根据我们制作的电力杆塔点云数据集,进行点云分割模型训练,并对分割结果进行杆塔倾斜度计算,最后对杆塔进行安全性分析。主要步骤如下:
1.制作数据集: 为了训练和测试模型,我们对通过无人机搭载激光雷达采集到的电力杆塔及周围环境的点云数据进行标注。在使用数据集进行训练之前,需要执行预处理操作。包括点云数据扩充,提取信息列,归一化等任务,以确保数据一致性和适当的格式。
2.点云分割模型训练: 使用预处理后的数据集,我们可以开始基于点云分割的深度学习模型进行训练。输入的点云数据将进行特征学习、特征融合等任务,最后输出杆塔点云数据分割结果。
3.杆塔倾斜检测: 完成点云分割模型训练后,我们将得到的分割结果进行杆塔倾斜度计算。国家规定电力杆塔倾斜度一旦超过5°就要立即进行维护检修,我们通过杆塔倾斜度算法得到的倾斜角度需要先进行准确性评估,符合准确性要求的杆塔在判断是否在安全性范围之内。
通过以上步骤,我们就完成了基于无人机激光点云的电力杆塔倾斜检测,可以简单、高效地实现杆塔倾斜度计算,具有较强的工程实用价值。
 
(2) 用于配网线路的目标检测技术 [视频]
配网部件红外图像精准检测
配网部件检测结果
输电线路异物检测
⇒ 红外图像的热故障判别:提出了一种配网部件红外图像的精准检测新方法,用于解决使用红外图像判别热故障问题时检测精度低的问题。我们共做出以下贡献:
1.自适应配准: 提出一种自适应裁剪配准的方法,计算裁剪坐标参数完成红外与可见光图像的精确配准,并且这种配准方法可以在相机变焦拍摄时自适应调整裁剪坐标。这种方法部署简单、配准效果好且具有优秀的实时性。
2.检测任务转换: 在完成配准的基础上提出一种检测任务转换的方法,将对配网部件红外图像的检测任务转换至高分辨率可见光图像上。将检测模型对配准后可见光图像的预测信息准确迁移至红外图像中。间接完成了对红外图像中部件的精准检测。并提出一种基于BAM注意力机制的YOLOv8目标检测方法,进一步提升检测精度。
3.制作数据集: 提出包括红外与可见光图像的配网典型空间部件的数据集,并通过检测任务转换的方法对配网部件红外图像达到89.8%的检测准确率。
4.算法部署: 将所提出的整体方法部署到湖南省电科院配网线路巡检系统,面向红外图像判别热故障问题实现配网部件红外图像的精准检测。
⇒ 输电线路异物检测:在这个工作中,我们设计了一种基于小样本目标检测的输电线路异物检测方法,这个方法在输电线路异物数据集上表现优异。
1.数据采集: 为了训练和测试模型,我们基于无人机平台在中国张家界地区基于同一条输电线路下不同天气、不同光照强度采集输电线路异物图像。该数据集包括套管、耐张线夹和鸟巢(即异物)三个类别,共96张静态图像,369个感兴趣目标框的手工标注。
2.数据预处理: 在进行训练之前,对所采集图像进行预处理,采用多尺度处理方式对数据进行训练。
3.模型训练: 对于数据进行预处理后,使用我们所设计方法进行训练,训练共分为两个阶段,第一阶段,采用具有大量标注信息的基类数据集上训练检测器Faster R-CNN。第二阶段,冻结训练检测器绝大部分参数,将训练好的模型迁移至新类进行微调。
4.结果测试: 对于我们的方法在测试集上进行测试并进行了可视化,由测试结果可以看出,我们所设计的方案可实现快速、准确检测。
 
(3) 电力输电线路缺陷检测 [视频1][视频2]
基于形状感知特征优化的检测网络
基于分块自纹理学习的检测网络
1.数据集: 我们使用无人机收集了输电线路系统中的航拍图像。该数据集包含了多样的场景,包括村庄、森林和农田等。此外,该数据集共有956个原始样本,包括振动锤(pvib)、缺失减振器(pvib-miss)、玻璃绝缘子(pinsug)、陶瓷绝缘子(pinsub)、缺失绝缘子(pinsumiss)、悬挂夹具(psusp)、鸟巢(pnest)和链路组(plinkgrp)等八个类别。
2.训练细节: 所有实验都是在一台配备Nvidia GTX 3090显卡、24 GB内存的计算机上进行的。我们的模型是使用Python 3.8和PyTorch 1.8.0实现的,并通过CUDA 11.1.74 + cuDNN-v8.0.5进行加速。
3.(1)SaFNet: 首先,我们选择残差网络(如ResNet50)从输入图像中提取多尺度特征。随后,多尺度特征经过语义引导的特征擦除模块,增强了网络感知遮挡对象的能力。此外,通过特征金字塔网络对特征进行融合,可以提高对不同尺度对象的检测性能。最后,融合后的特征输入经过专门设计的形状感知特征细化模块,生成用于检测和分类的预测结果。SaFM模块可以增强网络对对象轮廓的感知,有助于定位对象。
3.(2)PSTL-Net: 在提出的PSTL-Net框架中,我们将PSAM和STLM插入到ResNet中作为改进的骨干网络,从中提取具有丰富纹理信息的更具辨别力的特征。然后,FPN可以帮助网络获取语义级和像素级的信息特征,实现多尺度特征融合。最后,设计的头部网络预测分类和位置,并计算相应的损失用于反向传播。
4.检测测试: 通过载入训练好的网络权重,就可以实现对输电线路图像进行自动化检测,并对结果进行可视化。
 
(4) 跨场景领域自适应技术 [视频]
自适应精炼-聚集-分离框架
特征低维可视化
在GTA5上的分割结果
无监督领域自适应作为解决多场景适用性差和标注困难的一种方法受到了广泛关注。它使用容易获得的有标签虚拟场景数据训练一个在无标签真实目标场景具有较好效果的分割网络。为了提高语义分割的性能,基于特征聚类的方法作为一种方案被广泛应用以获得域不变特征表示。然而,目前大多数基于特征聚类的方法无差别地对两个域中所有特征进行聚类,这会导致质心偏移和降低特征的判别性。为此,本篇工作提出了一种新的基于聚类的方法,有效地解决了聚类过程中质心估计容易偏移和特征判别性差的问题。该工作设计了一个自适应-精炼-聚合-分离框架,通过为不同的域和不同的特征设计不同的自适应方案来进行聚类以提高判别性特征的生成,且聚类过程中不需要任何预先定义的阈值。在广泛采用的两个主流无监督领域自适应语义分割场景中的实验结果表明,该项工作超越了目前所有基于特征聚类的方法,达到了最佳效果,实现了在目标场景不需要标注的情况下对输入图像的准确分割。 [论文] [代码]
1.任务: GTA5-to-Cityscapes 和 Synthia-to-Cityscapes  (数据集: [GTA5] [Synthia] [Cityscapes])
2.代码: 该项工作的代码基于Python(3.6)和Pytorch(1.7),部分代码借鉴了UDAclustering和DAST_segmentation。
3.模型训练: 我们公开了该项工作的代码,并提供了模型训练的文件,通过该文件即可完成模型的领域自适应任务。(Example:
python train_UDA.py --source_dataset "gta5" --num_classes 19 --backbone "resnet101" --checkpoint_dir "./log/gta2city-res/" --pretrained_ckpt_file "../log/pretrainedmodles/gta5-res.pth")
4.模型测试: 我们的工作采用ResNet101和VGG16作为backbone,将训练好的模型作为权重加载即可完成测试,我们也进一步提供了测试代码。(Example: python evaluate.py --source_dataset "gta5" --num_classes 19 --backbone "resnet101" --split "test" --checkpoint_dir "./log/eval/gta2city-res-UDA/" --pretrained_ckpt_file "./log/gta2city-res/gta52cityscapesfinal.pth")
5.模型权重: 我们公开了该项工作对应的所有训练好模型权重 [Trained Models],可以直接使用该权重文件进行训练及评估。
研究方向
视觉目标检测
VOD
点云语义分割
PCSS
无监督领域自适应
UDA
多模数据处理
MMDP
依托项目
国网湖南省电力有限公司科技项目重大专项:无人机多模数据融合与缺陷智能识别技术研究(2023-2024)
国网湖南省电力有限公司科技项目:山区线路无人机巡检技术研究与示范(2024-2026)
国家电网有限公司科技项目:基于预训练模型的电力源荷多时空尺度预测公共服务关键技术与应用研究(2024-2025)
湘电试验研究院数字化项目:面向营配调数据贯通的无人机智能台帐校核(2023-2024)
湖南电科院数字化项目:基于线路通道多光谱数据的高精度树木分类 (2022-2023)
国网湖南电科院科技项目:基于自监督学习的电网大规模预训练视觉识别模型关键技术研究及应用 (2023)
湖南省重点研究项目:复杂公共环境下智能交管系统中的多目标检测和异常行为识别 (2022-2024)
云南交投合作项目:桥隧表观图像智能检测关键技术 (2022-2023)
学术成果
H.Zhang* [张辉], Y. Liu [刘宇], H. Zhong et al. Multimodal Fusion Network for Power Tower Semantic Segmentation and Inclination Detection. IEEE Transactions on Industrial Informatics, 2025. 10.1109/TII.2025.3578133..
论文链接: https://ieeexplore.ieee.org/document/11049808
摘要: 作为配电网最基本的支撑基础设施,电力塔需要定期检查其倾斜状态以确保系统的平稳运行。为克服仅使用图像或点云在大规模场景中区分目标所面临的显著困难,我们提出了一种用于电力塔语义分割与倾斜检测的多模态融合语义分割网络(MFSS)。首先,提出了有效的近地面滤波和固定区域切片算法,以解决样本不平衡和数据不足的问题。其次,MFSS融合了RGB信息和点云特征,以增强对电力塔的描述能力。最后,提出了一种新颖的配电塔倾斜检测方法,通过估计顶部与底部重心轴线来计算塔体倾角,从而提高检测的准确性和稳定性。在我们构建的数据集上的实验结果表明,所提出的方法优于现有算法,在电力塔分割中实现了77.3%的IoU和96.69%的类别准确率,倾斜检测的平均角度偏差为0.78°,状态判定误检率仅为2.4%
Abstract: As the most fundamental supporting infrastructure of the distribution network, power towers require regular checks of their tilting status to ensure the system’s smooth operation. To overcome distinguishing objects in large-scale scenes using solely images or point clouds poses significant difficulties, we propose a multimodal fusion semantic segmentation network (MFSS) for power tower semantic segmentation and inclination detection. First, effective near-ground filtering and fixed-area slicing algorithms are proposed to address the issues of sample imbalance and insufficient data. Second, MFSS integrates RGB information and point cloud features to enhance the descriptive ability of the tower. Finally, a novel inclination detection method for distribution towers is proposed, estimating tower tilt from the axis between top and bottom centroids to improve accuracy and stability. Experimental results on our constructed dataset show that the proposed method outperforms existing algorithms, achieving 77.3% IoU and 96.69% per-class accuracy in tower segmentation. The mean angle deviation for tilt detection is 0.78∘, with a state judgment false rate of just 2.4%.
R. Du [杜瑞], H.Zhang* [张辉], H. Zhong et al “CLMFNet: Cross-Level Multimodal Fusion Network for RGB-T Semantic Segmentation of Distribution Network Lines”, IEEE Transactions on Industrial Informatics, 2025. 10.1109/TII.2025.3578136.
论文链接: https://ieeexplore.ieee.org/document/11050945
摘要: 准确的语义分割在配电线路监测中至关重要,以确保系统的可靠性和安全性。由于环境的复杂性和设备的多样性,单一模态图像(如RGB图像)难以提供足够的信息以实现有效的分割。为应对这些挑战,利用RGB与热红外(TIR)图像的互补性显著提升了分割性能。因此,提出了一种创新性的跨层多模态融合网络(CLMFNet),通过融合RGB和TIR数据来提高语义分割的准确性和鲁棒性。CLMFNet采用双分支架构以提取RGB和TIR图像的特征,并通过多模态融合策略对其进行有效整合。此外,引入了一种跨层引导机制,以促进不同层级特征的互补与优化。CLMFNet在自建的RGB-T数据集上进行了验证,实验结果表明,在平均准确率(mAcc)和平均交并比(mIoU)等关键指标上均优于现有先进方法,展示了其在复杂配电场景中进行语义分割的有效性。
Abstract: Accurate semantic segmentation is crucial in distribution network line monitoring to ensure the system’s reliability and security. Due to the complexity of the environment and the diversity of devices, unimodal images (such as RGB images) struggle to provide enough information for effective segmentation. To address these challenges, the complementary nature of RGB and thermal infrared (TIR) images is leveraged to significantly enhance segmentation performance. Therefore, an innovative cross-level multimodal fusion network (CLMFNet) is proposed to improve the accuracy and robustness of semantic segmentation by integrating RGB and TIR data. A dual-branch architecture is employed in CLMFNet to extract features from both RGB and TIR images, which are then effectively integrated through a multimodal fusion strategy. Additionally, a cross-layer guidance mechanism is introduced to facilitate the complementation and optimization of features across different levels. CLMFNet was validated on a custom RGB-T dataset, and experimental results showed that it outperformed state-of-the-art methods in key metrics such as mean accuracy (mAcc) and mean intersection over union (mIoU), demonstrating its effectiveness in performing semantic segmentation in complex power distribution scenarios.
R. Du [杜瑞], H.Zhang* [张辉], H. Zhong et al "VSLNet: Multimodal Data Fusion Network for Tree Species Classification in Overhead Transmission Line Corridors," in IEEE Transactions on Industrial Informatics, vol. 21, no. 2, pp. 1100-1109, Feb. 2025.
论文链接: https://ieeexplore.ieee.org/document/10740790
摘要: 对架空输电线路(OHTL)树种进行分类具有重要意义,有助于及时排除树木对电力线路构成的安全隐患。针对OHTL线路树种分类中目标形态细微差异、目标密集分布以及单一模态数据表征能力有限等挑战,本文提出了一种基于多模态数据融合的树种分类网络VSLNet。VSLNet构建了三个非对称分支,在光谱信息处理过程中自动选择更具判别力的特征,并共同引导所提取的可见光信息,确保全局与局部一致性,实现准确的多光谱分类。此外,在LiDAR数据处理中,个体树木的分割为分类提供了树高和冠幅等数据,并将GPS数据与多光谱分类结果无缝融合。实验结果表明,VSLNet是一种可行且可靠的树种分类解决方案,具有应用于其他多模态任务的潜力。
Abstract: The classification of tree species for overhead transmission lines (OHTL) is of great significance, facilitating the the timely removal of safety hazards posed by trees on power lines. Addressing the challenges in classifying OHTL line tree species, including subtle differences in target shape appearance, densely distributed targets, and limited representation in single-modal data, this article proposes a tree species classification network, VSLNet, based on multimodal data fusion. VSLNet constructs three asymmetric branches, which automatically select more discriminative features among spectra during spectral information processing, and jointly guide the extracted visible light information, ensuring global and local consistency for accurate multispectral classification. Furthermore, in LiDAR processing, the segmentation of individual trees contributes data such as tree height and crown diameter, and seamlessly integrates GPS data with multispectral classification results. Experimental results demonstrate that VSLNet is a feasible and reliable solution for tree classification, with potential applicability to other multimodal tasks.
B. Biekezati[别克扎提·巴合提], H. Zhang* [张辉], et al, "Reliable Wind Turbine Blade Performance Monitoring System " in IEEE Transactions on Reliability, doi: 10.1109/TR.2024.3509442.
论文链接: https://ieeexplore.ieee.org/document/10811663
摘要: 风力涡轮机已成为一种重要且环保的能源发电解决方案。然而,随着新型材料的广泛应用,确保这些设备的可靠性已成为一个关键问题。开发高效且具成本效益的风力涡轮机叶片(WTBs)监测方法,作为风力涡轮机中最昂贵的部件,已成为研究的重点。本文提出了一种采用基于医学听诊方法的深度卷积神经网络的WTBs新型监测系统,旨在兼顾经济性与工程可靠性。首先,提出了一种基于边缘计算的轻量级WTBs监测框架,利用风力涡轮机可编程逻辑控制器输出信号,有效采集相关的气动音频信号并滤除无关数据。其次,提出了一套音频增强算法,采用多尺度特征提取、自适应掩膜定位和深度神经网络,降低WTBs产生的音频信号噪声。第三,提出了一种新的深度卷积神经网络压缩方法,使其适用于资源受限的边缘计算设备,并高效利用音频生成的频谱图对WTBs故障进行诊断。
Abstract: Wind turbines have emerged as a prominent and environmentally friendly energy generation solution. However, with the widespread use of new materials, ensuring the reliability of these devices has become as a critical issue. Developing efficient and cost-effective monitoring methods for the wind turbine's blades (WTBs), the most expensive components of wind turbine, has become a focal point of research. In this article, we present a novel monitoring system for WTBs that employs a deep convolutional neural network approach based on the medical auscultatory method. The system is designed to balance economic efficiency and engineering reliability. First, we proposed a lightweight WTBs monitoring framework based on edge computing that leverages the signals from the programmable logic controller output of wind turbine to enable efficient collection of relevant aerodynamic audio signals while filtering out irrelevant data. Second, we present a set of audio enhancement algorithms that employ multiscale feature extraction, self-adaptive mask targeting, and deep neural networks to reduce noise in the audio signals generated by WTBs. Third, we introduce a new approach for compressing deep convolution neural networks that makes them suitable for resource-constrained edge computing devices and efficiently utilizes audio-generated spectrograms to diagnose faults in WTBs.
张辉, 杜瑞, 钟杭, 曹意宏, 王耀南. 电力设施多模态精细化机器人巡检关键技术及应用. 自动化学报, 2025, 51(1): 20−42 doi: 10.16383/j.aas.c230809
论文链接: http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230809
摘要: 电力设施巡检对于加快电网基础设施智能化改造和智能微电网建设, 提高电力系统互补互济和智能调节能力的需求具有重要作用. 近年来, 智能巡检机器人开始在电力巡检中广泛应用, 在提高电力设施巡检效率和准确性、提升安全性、降低成本和促进电力智能化发展等方面发挥关键作用. 本文从电力巡检机器人的智能感知和导航技术出发, 重点介绍目标检测、语义分割、自主导航等共性关键技术的国内外发展现状. 然后以可见光红外双光融合、可见光图像和点云数据融合、声纹和可见光融合为例, 阐述电力场景多模态数据融合方式. 并进一步介绍电力部件精准分割和异物检测、线路点云杆塔倾斜检测、输电线路覆冰多模态检测和电力架空线路缺陷分析及台账异常检测等电力设施多模态机器人相关案例. 最后探讨电力设施多模态精细化机器人巡检关键技术的发展趋势和所面临的挑战.
Abstract: Power facilities inspection plays an important role in accelerating the intelligent transformation of power grid infrastructure and the construction of intelligent microgrid, and improving the complementary and intelligent adjustment ability of power system. In recent years, intelligent inspection robots have been widely used in power inspection. They play a key role in improving the efficiency and accuracy of power facilities inspection, improving safety, reducing costs and promoting the development of power intelligence. This paper starts from the intelligent perception and navigation technology of power inspection robots. This paper focuses on the development status of common key technologies such as target detection, semantic segmentation and autonomous navigation at home and abroad, and then takes visible light infrared dual-light fusion, visible light image and point cloud data fusion, voiceprint and visible light fusion as examples. This paper expounds the multi-modal data fusion method of power scene, and further introduces the related cases of multi-modal robots for power facilities, such as accurate segmentation and foreign body detection of power components, tilt detection of line point cloud towers, multi-modal detection of transmission line icing, defect analysis of power overhead lines and abnormal detection of ledgers, etc.. Finally, the development trend and challenges of key technologies for multi-modal fine robot inspection of power facilities are discussed.
Y. Cao [曹意宏], H. Zhang* [张辉], X. Lu, Y. Chen, Z. Xiao and Y. Wang, "Adaptive Refining-Aggregation-Separation Framework for Unsupervised Domain Adaptation Semantic Segmentation," in IEEE Transactions on Circuits and Systems for Video Technology, doi: 10.1109/TCSVT.2023.3243402. (格式参考,组内学生需加上中文,并标注通讯作者)
论文链接: https://ieeexplore.ieee.org/abstract/document/10040699
代码链接: https://github.com/yihong-97/ARAS
摘要: 无监督领域自适应作为一种解决语义分割任务标记困难的有前景的方法引起了广泛关注。它使用易于获得的标记虚拟源图像为未标记的真实目标图像训练分割网络。为了提高性能,使用聚类来获得域不变特征表示。然而,大多数基于聚类的方法不加选择地对两个域中按类别映射的所有特征进行聚类,导致质心偏移并影响鉴别特征的生成。我们提出了一种新的基于聚类的方法,该方法使用自适应细化聚合分离框架,通过为不同的域和特征设计不同的自适应方案来学习判别特征。聚类不需要任何可调阈值。为了更准确地估计域不变质心,我们设计了不同的方法来指导不同域特征的自适应细化。提出了一种直接评估目标特征置信度的方法,以解决目标标签缺失的问题。我们引入了一种域平衡聚合损失和两种分别用于距离和相似性的自适应分离损失,它们可以通过结合细化策略来区分聚类特征,从而提高分割性能。在GTA 5→Cityscapes和SYNTHIA→Cityscape基准上的实验结果表明,我们的方法优于现有的最先进的方法。
Abstract: Unsupervised domain adaptation has attracted widespread attention as a promising method to solve the labeling difficulties of semantic segmentation tasks. It trains a segmentation network for unlabeled real target images using easily available labeled virtual source images. To improve performance, clustering is used to obtain domain-invariant feature representations. However, most clustering-based methods indiscriminately cluster all features mapped by category from both domains, causing the centroid shift and affecting the generation of discriminative features. We propose a novel clustering-based method that uses an adaptive refining-aggregation-separation framework, which learns the discriminative features by designing different adaptive schemes for different domains and features. The clustering does not require any tunable thresholds. To estimate more accurate domain-invariant centroids, we design different ways to guide the adaptive refinement of different domain features. A critic is proposed to directly evaluate the confidence of target features to solve the absence of target labels. We introduce a domain-balanced aggregation loss and two adaptive separation losses for distance and similarity respectively, which can discriminate clustering features by combining the refinement strategy to improve segmentation performance. Experimental results on GTA5→Cityscapes and SYNTHIA→Cityscapes benchmarks show that our method outperforms existing state-of-the-art methods.
H. Zhang* [张辉], J. Tang [唐珺琨], Y. Cao, Y. Chen, Y. Wang and Q. M. J. Wu, "Cycle Consistency Based Pseudo Label and Fine Alignment for Unsupervised Domain Adaptation," in IEEE Transactions on Multimedia, doi: 10.1109/TMM.2022.3233306.
论文链接: https://ieeexplore.ieee.org/abstract/document/10004010
摘要:无监督域自适应(UDA)旨在将知识从标记良好的源域转移到具有相关分布的未标记目标域。许多现有的方法通过直接匹配两个域之间的边际分布来处理这个难题,这面临着粗略对齐和模糊决策边界的障碍。UDA的最新进展引入了目标伪标签和子域自适应,以减少未对准和分布差异。然而,他们经常忽视目标伪标签的产生是如此依赖于源训练的分类器,在没有合理限制的情况下,区分生成的伪标签是否自信。同时,子域对齐度量中的许多方法忽略了探索域内同类样本之间的潜在分布差异。为了同时解决这两个问题,本文提出了一种基于循环一致性的伪标签和精细对齐(CCPLFA)方法用于UDA。特别是,首先,设计了一种基于循环一致性的伪标签模块,这是一种简单而有效的方法来减轻伪标签的噪声并提高其语义正确性。其次,我们开发了一个精细对齐分布匹配度量。这可以最大限度地提高类内跨域的特征分布密度,而不会忽视全局方面的分布结构。在四个基准上的综合实验结果证明了我们提出的方法的即插即用能力和良好的泛化性能。
Abstract:Unsupervised Domain Adaptation (UDA) aims to transfer knowledge from a well-labeled source domain to an unlabeled target domain with a correlative distribution. Numerous existing approaches process this hard nut by directly matching the marginal distribution between two domains, which confront the obstacle of rough alignment and blurred decision boundary. Recent advances in UDA introduce target pseudo-label and subdomain adaptation to reduce misalignment and distribution discrepancy. Whereas, they frequently ignore that the production of target pseudo-label is so dependent on the source-trained classifier, which without reasonable restriction to discriminate generated pseudo-label is whether confident. Meanwhile, many methods in the subdomain alignment metric ignore exploring the potential distribution discrepancy between same-class samples of the intra-domain. To address these two issues simultaneously, this paper proposes a Cycle Consistency based Pseudo Label and Fine Alignment (CCPLFA) approach for UDA. In particular, firstly, a novel cycle-consistency based pseudo label module is designed, which is a simple yet effective way to alleviate the noise of pseudo labels and improve their semantic correctness. Secondly, we develop a Fine-Alignment distribution matching metric. Which can maximize the feature distribution density of intra-class cross-domains and not overlook the distribution structure of the global aspect. Comprehensive experiment results on four benchmarks demonstrate the capability of plug and play and the well generalization performance of our proposed method.
Yan Tao [陶岩], and Hui Zhang* [张辉]. "A LAB color space style transfer method base on luminance grouping for semantic segmentation." 2022 China Automation Congress (CAC). IEEE, 2022.
论文链接: https://ieeexplore.ieee.org/abstract/document/10056064
摘要:近年来,语义分割取得了很大进展,它是计算机视觉中的一项基本任务,为图像中的每个像素分配类标签。由于用于语义分割的数据集的像素级注释总是一项代价高昂的任务,因此使用处理器生成的虚拟图像数据是解决这一问题的重要方法。但是,合成数据域和现实域之间不可避免地存在差异。我们提出以下解决上诉问题的方法。首先,提出了一种基于亮度分组的LAB颜色空间风格转换方法,以减少两个域之间的差异。其次,我们发现傅里叶变换谱传递方法通过切换源和目标域的低频分布来减小源和目标分布之间的差异
Abstract:Recently, semantic segmentation has made great progress, which is a basic task in computer vision and assigns the class label for each pixel in a image. Since pixel-level annotation of datasets for semantic segmentation is always a costly task, using the processor-generated virtual image data is an important method to solve this problem. But there are inevitable differences between the synthetic data domain and the reality domain. We propose the following ways to solve the appeal problem. Firstly, a LAB color space style transfer method based on luminance grouping is proposed to reduce the differences between the two domains. Secondly, we found that the Fourier transform spectrum transfer method reduces the difference between the source and target distributions by switching the low-frequency distributions of the source and target domains.
Yu Liu [刘宇], Hui Zhang* [张辉]. "Inclination Detection of Distribution GridTowers Based on Point Cloud Semantic Segmentation", China Conference on Intelligent Robots, 2023.
摘要:作为整个电力系统最基础的设施,电力杆塔的稳定性直接关系到电力系统的供电安全。极端天气或地形变化容易导致杆塔倾斜,带来严重的安全隐患。因此,定期检测杆塔倾斜度至关重要。我们提出了一种基于点云语义分割的杆塔倾斜检测算法。首先,构建了电力杆塔点云数据集。其次,为解决点云分割训练数据不足的问题,我们提出了固定区域切片(FAS)和多稀疏切片(MSS)数据增强方法,使杆塔点云分割的mIOU和mAcc分别提升至89.4%和96.4%。最后,基于点云语义分割的杆塔倾斜检测算法被进一步提出。结果表明,该算法预测的倾斜角与真实值的平均偏差约为0.1°。实验验证了该算法在配电杆塔场景中的有效性和正确性。
Abstract:As the most basic facility of the entire electric power grid, the stability of power towers is directly related to the power supply security of the electric power system. Extreme weather or terrain changes can easily lead to tower tilting, which poses significant safety hazards. Therefore, it is necessary to regularly inspect the inclination of the tower. We propose a tower inclination detection algorithm based on point cloud semantic segmentation. First, the power tower point cloud dataset is constructed. Second, to overcome the problem of insufficient training data for point cloud segmentation, we propose the fixed-area slicing(FAS) and multi-sparse slicing(MSS) for data augmentation, which improves the accuracy of tower point cloud segmentation mIOU and mAcc to 89.4% and 96.4% respectively. Finally, the tower inclination detection algorithm based on point cloud semantic segmentation is proposed. The results show that the average deviation between the predicted tilt angle of the algorithm and the factual value is about 0.1◦. This algorithm is proved to be effective and correct in the distribution grid towers.
Zhao W[赵伟], Zhang H[张辉], et al. "SCASAN: Spatial Central Attention-Spectral Attention Network Based Feature Extractor for Hyperspectral Image Classification"2023 China Automation Congress (CAC). IEEE, 2023.
论文链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10451365
摘要:由于空间、时间、环境变化和地面物体类型对高光谱图像光照条件的影响,高光谱图像(HSl)分类具有挑战性。最近,基于注意力的HSI分类受到了越来越多的关注。它使用空间注意力和光谱注意力来捕捉所需的空间光谱特征,从而实现更好的分类精度。然而,在不损害空间光谱特征的情况下,将这两种注意力机制联系起来是具有挑战性的。此外,如何获得决定每个通道或空间位置重要性的注意力权重矩阵也是注意力机制使用中的一个重要问题。针对上述问题,空间中心关注。光谱注意力网络(SCASAN)旨在有效地对空间光谱信息进行建模,以进行HSI分类。在这个网络中,我们提出了新的光谱权重空间注意力(SWSA)模块来解决空间注意力和光谱注意力之间的联系问题。此外,我们利用空间中心注意力网络(空间CAN)来获得空间注意力权重矩阵,以避免非均匀相邻像素对分类像素的影响。通过在三个公开数据集上进行的综合实验证明,与最先进的方法相比,我们提出的方法在高光谱图像分类方面表现出了更优的性能。
Abstract:Due to the infuence of space, time, environmentalchanges, and types of ground objects on the lighting conditions ofhigh-light falling images, Hyperspectral image (HSl) classificationis challenging. Recently, attention-based HSI classifcation hasreceived increasing attention. It uses both spatial attentionand spectral attention to capture the required spatial-spectralfeatures, thereby achieving better classifcation accuracy. How.ever, it is challenging to connect the two attention mechanismswithout compromising the spatial-spectral features. In addition.how to obtain the attention weight matrix which determinesthe importance of each channel or spatial location is also animportant problem in the use of attention mechanisms. Inresponse to the above issues, the Spatial Central Attention.Spectral Attention network (SCASAN) is designed to efficientlymodel the spatial-spectral information for HSI classifcation. Inthis network, we propose the novel spectral weight spatial attention (SWSA)module to solve the connection problem betweenspatial attention and spectral attention. Furthermore, we utilizea spatial central attention network(spatial CAN)to obtain aspatial attention weight matrix to avoid the impact of non.homogeneous adjacent pixels on the classified pixel. Our proposedapproach demonstrates superior performance in hyperspectralimage classification compared to state-of-the-art methods, asevidenced by comprehensive experiments conducted on threepublicly available datasets.
张辉,张邹铨等.工业铸件缺陷无损检测技术的应用进展与展望[J].自动化学报,2022,48(04):935-956.
摘要:高端装备制造业是国民经济的支柱产业, 是推动工业转型升级的引擎, 发挥着举足轻重的作用. 而铸造产业一直是人类现代生产生活中重要的、不可替代的产业, 铸件产品既是工业制造产品, 也是大型机械的组成部分. 随着经济水平和工业自动化程度的不断提升, 人们对于铸件的需求量呈指数爆炸式增长, 铸件价值辐射到各行各业. 与此同时, 铸件在铸造、服役过程中经常会出现各种缺陷, 而传统低效的人工检测方法难以保障工业界对中高端铸件的性能需求. 因此亟需对铸件检测技术进行革新. 本文首先对铸件铸造过程以及服役过程中各类缺陷的形成机理进行分析. 然后阐述了基于声学、光学、电磁学等主流检测技术及其常规信号处理方法、磁粉检测技术与渗透检测技术等其他检测技术, 并对近年来新兴的基于神经网络的信号处理方法进行了说明. 在此基础上, 分析了近年来铸件缺陷无损检测技术以及基于神经网络的信号处理方法的研究现状. 最后, 对铸件缺陷无损检测技术及应用的发展趋势进行了展望.
Abstract:High-end equipment manufacturing industry is the pillar industry of the national economy and the engine to promote industrial transformation and upgrading. It plays a pivotal role. Foundry industry has been an important and irreplaceable industry in modern production and life of human beings, and casting products are both industrial manufacturing products and components of large machinery. With the continuous improvement of economic level and industrial automation, the demand for castings is growing exponentially and explosively, and the value of castings radiates to all walks of life. At the same time, casting products often show various defects in the process of casting and service, and the traditional inefficient manual detection method is difficult to guarantee the performance requirements of the industry for middle and high-end castings. Therefore, it is urgent to improve the casting testing technology. Firstly, we analyze the formation mechanism of various defects in casting process and service process in this paper. Then we describe the main detection techniques based on acoustics, optics and electromagnetism and conventional signal processing methods, magnetic particle detection technology and penetration detection technology. We also describe the emerging signal proceesing methods based on neural network in recent years. On this basis, we analyze the research status of casting defect nondestructive testing technology and neural network-based signal processing method in recent years. At last, the development trend of casting defect nondestructive testing technology and its application are prospected.
Dousang Wu, Hui Zhang, Yihong Cao, Rui Du, Baheti Biekezat, "MDAF: Enhancing Temporal Dynamics in CNNs for Action Recognition," in 2024 China Automation Congress (CAC)
摘要:理解视频序列中的时间信息对于各种计算机视觉任务(如动作识别)至关重要。基于变压器的方法和GCNs可以有效地处理时间信息,但它们的计算成本高,泛化能力差。一些研究表明,使用3D cnn来处理骨骼数据而不是RGB数据有很好的结果,但3D cnn可能将时间维度视为空间维度,限制了它们捕捉复杂时间动态的能力。为了解决这些问题,我们提出了多维注意力融合模块(MDAF),该模块包括单独的通道、空间和时间注意力计算模块,通过一个注意力融合模块集成。这种设计确保了注意力信息在各个维度上的有效利用。该方法增强了时间动态,提高了对复杂动作的识别能力。在四个基准数据集上进行的实验表明,我们的方法优于最先进的方法,实现了显着的性能改进。
Abstract:Understanding temporal information in video sequences is crucial for various computer vision tasks, such as action recognition. Transformer-based methods and GCNs can effectively handle temporal information, but they suffer from high computational costs or poor generalization capabilities. Some research has shown promising results using 3D CNNs to process skeleton data instead of RGB data, but 3D CNNs may treat temporal dimension as a spatial one, limiting their ability to capture complex temporal dynamics. To address these issues, we propose the Multi-Dimensional Attention Fusion module (MDAF), which includes separate channel, spatial, and temporal attention computation modules, integrated through an attention fusion module. This design ensures the effective utilization of attention information across all dimensions. Our method enhances temporal dynamics, improving the recognition of complex actions. Experiments conducted on four benchmark datasets demonstrate that our approach outperforms state-of-the-art methods, achieving significant performance improvements.
Liang Zhijia[梁志佳], Hui Zhang[张辉] et al. “Few-Shot Transmission Line Foreign Object Detection Based on Transfer Learning.” Proceedings of the 7th International Conference on Computer Science and Application Engineering (2023): n. pag.
论文链接: https://dl.acm.org/doi/abs/10.1145/3627915.3628023
摘要:输电线路上存在异物会危及输电线路的安全运行。然而,传输线上的异物体积很小,可供收集的数据有限。在使用少量目标检测算法进行检测时,存在少量数据误分类和网络偏差的高风险,使得传输线上的异物检测任务具有挑战性。为了解决这个问题,我们提出了一种基于少射目标检测的传输线上异物检测方法。首先,我们在迁移学习中引入了注意机制,增强了网络对少量数据的关注,减轻了网络偏差。其次,我们提出了一种在线困难样本选择方法,以解决由于对象尺寸小而导致的少量数据分类和假阳性和假阴性的问题。此外,我们使用对合来提高异物检测的准确性。此外,我们构建了精细标记的传输线异物数据集(TLFOD)。在具有挑战性的TLFOD数据集上,我们的方法在异物检测方面达到了98.4%的平均精度,超过了现有的最先进的方法,并且在分类回归和位置回归方面表现出色。
Abstract:Presence of foreign objects on power transmission lines can jeopardize the safe operation of the transmission lines. However, foreign objects on transmission lines are small in size and the available data for collection is limited. When using few-shot object detection algorithms for detection, there is a high risk of misclassifying of few-shot data and network bias, making the task of foreign object detection on transmission lines challenging. To address this, we propose a method for detecting foreign objects on transmission lines based on few-shot object detection. Firstly, we introduce an attention mechanism in transfer learning to enhance the network's focus on few-shot data and mitigate network bias. Secondly, we propose a method for online difficult sample selection to address the issues of few-shot data classification and the occurrence of false positives and false negatives due to small object sizes. Additionally, we used involution to improve the accuracy of foreign object detection. Furthermore, we construct the finely labeled Transmission Line Foreign Object Dataset (TLFOD). Our method achieves an average precision of 98.4% in foreign object detection on the challenging TLFOD dataset, surpassing existing state-of-the-art methods and demonstrating outstanding performance in classification regression and position regression.
黄志鸿,刘帅,张辉,梁志佳等.基于小样本目标检测的配电线路异物识别[J].科学技术与工程,2024, 24(32):13935-13943.
论文链接: http://stae.com.cn/jsygc/article/pdf/2307412
摘要:为了解决小样本目标检测算法中网络倾斜现象,小样本数据误检、漏检等问题,提出一种基于小样本目标检测的配电线路异物识别方法。首先,通过在迁移训练中引入注意力机制,解决网络倾斜现象。其次,提出在线难度样本选择的方法。解决小样本分类以及小尺寸异物误检和漏检问题。再次,采用内卷积解决传统卷积问题,提高异物检测精度。再次,提出新的锚框方案,解决小尺寸异物目标定位不准问题。最后,构建一个配电线路异物数据集。该方法相较于之前先进算法在配电线路异物检测数据集上检测精度提高了4.4%,达到98.6%,具有优异性能。
Abstract:In order to solve the problems of network skew, small sample data misdetection and missing detection in small sample target detection algorithm, a foreign body identification method of distribution line based on small sample target detection is proposed. Firstly, the network skew phenomenon is solved by introducing attention mechanism in transfer training. Secondly, the method of online difficulty sample selection is proposed. Solve the problem of small sample classification and small size foreign body misdetection and missing detection. Thirdly, internal convolution is used to solve the traditional convolution problem and improve the accuracy of foreign body detection. Thirdly, a new anchor frame scheme is proposed to solve the problem of inaccurate positioning of small size foreign objects. Finally, a distribution line foreign body data set is constructed. Compared with the previous advanced algorithms, the detection accuracy of the proposed method on the distribution line foreign body detection data set is increased by 4.4%, reaching 98.6%, and has excellent performance.
张辉,杜瑞,曹意宏,别克扎提·巴合提等. 基于跨层级引导融合的多模态图像语义分割方法及系统[P]. 湖南省:CN202411346191.7,2025-02-11(授权)
摘要:本发明公开了一种基于跨层级引导融合的多模态图像语义分割方法及系统,该方法利用RGB影像信息和深度信息、热成像信息和光谱信息等额外模态图像信息的多模态数据,融合多模态信息并用于图像语义分割任务。该方法先将额外模态图像转换成和RGB图像同样的尺寸大小和视觉范围,再使用基于Transformer基本块的双分支编码器提取RGB模态和额外模态特征,通过跨层级引导融合模块在浅层、中层、高层特征中利用低层级特征引导高层级特征的多模态融合,最后利用解码器对多级融合特征解码,并逐像素点输出图像的类别,解决了在复杂场景下语义分割表现不佳的问题;本发明技术方案可应用于机器人智能分拣、无人机智能巡检等复杂场景。
张辉,曹意宏,肖正,杜瑞等. 伪标签生成及无源域场景自适应的遮挡感知无缝分割方法及系统[P]. 湖南省: CN202411943039.7,2025-03-11(授权)
摘要:本发明公开了一种伪标签生成及无源域场景自适应的遮挡感知无缝分割方法及系统,该方法通过为常规使用的实例级伪标签通过阈值筛选和数据量的对比,进一步提升伪标签的标记精度;同时利用生成的伪标签,并设计一种针对遮挡感知无缝分割任务中实例级预测分支的不确定区域引导的加权损失,提升分割模型的准确度;再结合对低质量伪标签的筛选,提出一种非模态引导的实例混合策略,从而进一步的增加可供训练的样本数量;从而提高由于个别类别样本数量少导致的最终训练的模型分割效果差的问题,最终提高无源域场景自适应效果。
张辉,杜瑞,别克扎提·巴合提,曹意宏等. 一种RGB-T图像多模态语义分割方法及系统[P]. 湖南省:CN202510661107.9,2025-06-20(实审)
摘要:本发明公开了一种RGB-T图像多模态语义分割方法及系统,该方法使用莫比乌斯变换替代传统线性变换,其中,采用双分支结构分别提取RGB-T图像特征,每个分支均设有多个依次连接的莫比乌斯自注意力层;在特征融合层引入莫比乌斯交叉注意力融合层融合RGB-T图像特征得到多尺度特征,接着空间解码器通过上采样操作对齐不同层级的多尺度特征的分辨率,再融合多个层级的多尺度特征后投影到类别空间,通过Softmax函数生成分割预测结果。本发明技术方案构建的莫比乌斯注意力机制能够在双曲空间中对多模态特征进行非线性映射,更有效地应对模态差异和边缘畸变,提升模型对多模态特征融合的适应性和融合精度。
张辉,张羽宏宣,别克扎提·巴合提,邱宇等. 一种RGB-T图像多模态语义分割方法及系统[P]. 湖南省:CN202510661107.9,2025-01-24(实审)
摘要:本发明公开了一种基于孪生神经网络的时间序列相似度度量方法及终端,对时间序列数据样本进行两两分组配对为时间序列样本对并标注标签,将经过配对标注后的时间序列样本对输入到使用相同预训练大模型为分支的孪生神经网络中,得出时间序列间的相似度作为网络整体最终的输出,利用损失函数更新整个孪生神经网络与微调预训练大模型结合的网络权重。本发明针对小样本场景下的时间序列数据相似度度量任务,利用预训练大模型在时间序列领域表现出的强大能力,结合孪生神经网络在小样本相似度度量的优势,进行时间序列数据的相似度度量,只需要少量样本即可完成时间序列相似度的度量,能够全方位提取时间序列的特征,作为相似度度量的依据。
张辉,杜瑞,别克扎提·巴合提,曹意宏等. 一种基于有监督学习的输电线路树木分割方法及系统[P]. 湖南省: CN202411426418.9,2025-01-31(实审)
摘要:本发明公开了一种基于有监督学习的输电线路树木分割方法及系统,包括:获取沿输电线路通道采集的点云数据;利用点云数据构建邻接图;将邻接图输入构建的图神经网络模型得到特征空间参量再映射到单木实例标签空间得到单木实例标签概率分布,再以最大概率的单木实例标签的预测值作为对应点的单木分割预测结果;其中,通过采集点云数据样本以及点的单木实例标签的实际值,进而依据单木实例标签的预测值与单木实例标签的实际值进行有监督学习训练。本发明通过构建邻接图引入了点云数据的几何关系,使用图卷积网络能够捕捉局、全局特征,利用单木实例标签信息进行有监督训练,使模型能够学习并区分不同树木的点云特征,提高单木分割的精度和效率。
张辉,吴读桑,曹意宏,杜瑞等. 一种基于注意力融合的视频场景理解方法及系统[P]. 湖南省: CN202411276866.5,2024-12-27(实审)
摘要:本发明公开了一种基于注意力融合的视频场景理解方法及系统,该方法将多维度注意力融合模块加入骨干网络构建出行人视频场景下的识别网络,如行人动作识别网络,其中,多维度注意力融合模块是将通道,时间,空间三个维度独立计算各自注意力再进行融合;进而获取视频数据集中每帧图像的行人数据,再利用视频数据集中每帧图像的行人数据训练行人视频场景下的识别网络;最后,利用训练好的行人视频场景下的识别网络,对待检测视频进行视频理解,如输出行人动作类型。本发明技术方案块既单独使用了注意力信息使得各类注意力信息最有效利用,又使注意力信息在时空两个维度进行了整合,得到更全面的信息,增强时序信息利用,提升视频场景理解能力。
张辉,刘航,别克扎提·巴合提,曹意宏等. 一种基于实例分割的路面病害智能检测方法及系统[P]. 湖南省: CN202411149687.5,CN202411149687.5(实审)
摘要:本发明公开一种基于实例分割的路面病害智能检测方法及系统,利用线阵相机采集包含路面病害的图像数据,通过自适应直方图均衡化对所采集的图像数据进行预处理;建立多层级特征提取网络提取图像数据中的全局特征,输出多尺度特征图;采用空间-通道注意力机制对多尺度特征图进行处理,增强其特征信息,使目标区域充分激活;通过采用转置卷积上采样的路径聚合金字塔网络对多尺度特征图进行特征融合,将金字塔网络的输出特征通过自适应增强机制进一步增强;将增强后的多尺度特征图进行模型训练;使用优化好的实例分割模型对采集的多张路面图像进行预测。本发明解决了现有的路面病害检测方法的局限性,提升路面病害检测精度、解决跨图病害识别等难点。
张辉,朱嘉明等. 基于预训练大语言模型的多变量源荷数据预测方法及系统[P]. 湖南省: CN202411943114.X,2025-03-28(授权)
摘要:本发明公开了基于预训练大语言模型的多变量源荷数据预测方法及系统,将历史源荷时序序列进行文本化编码,混合使用低秩矩阵适配法与适配器法形成基于多专家的混合微调模块的预训练大语言模型,进而得到初步预测时序序列,最后进行滤波校准,其中,基于待预测变量与其余变量之间的互相关选出相关性更高的变量为超前变量;针对初步预测时序序列中超前变量与待预测变量数据进行滤波,进而进行整合得到对于初步预测时序序列的校准偏差,用于校准。本发明在大语言模型的基础上进行微调,能够在小样本、多变量条件下,完成不同类型的源荷时序序列预测任务,利用了变量间的超前滞后关系,对待预测变量进行提示和引导操作,提高源荷预测准确性和可靠性。
张辉,刘优武等. 一种基于边界分布注意力的医药质量检测方法及系统[P]. 湖南省:CN115841481A,2023-03-24.(实审)
摘要:本发明公开了一种基于边界分布注意力的医药质量检测方法及系统,其包括:构造数据集,即对目标液体图像上可见异物的位置以及类别进行标定;构建包含特征提取网络、特征融合网络以及边界分布注意力检测头网络的神经网络模型;其中,边界分布注意力检测头网络的输出为每个像素点所属的类别以及以每个像素点为中心点的回归框的四条边界到中心点的距离,所述类别为可见异物类别或背景;利用数据集训练神经网络模型;将待检测的目标液体图像输入训练后的所述神经网络模型得到可见异物的检测结果。本发明技术方案创造性地设计出包含边界分布注意力检测头网络的神经网络,能够分析回归框的每条边界分布的重要程度,进而指导像素点分类,降低误检率。
黄志鸿,张辉,左沅君,刘宇等.一种基于分层神经网络的电力杆塔点云分割方法及系统[P]. 湖南省:202310769571.0, 2023-10-20.(实审)
摘要:本发明公开了一种基于分层神经网络的电力杆塔点云分割方法及系统,本发明方法包括获取待处理的电力杆塔及周围环境的点云数据;将点云数据输入分层神经网络:利用多级集合抽样层对点云数据进行抽样;利用多级特征传播层对抽样得到的每个质心的局部特征向量进行上采样从而完成对点云数据的特征学习获得整个点云的全局特征向量,利用全连接层将整个点云的全局特征向量映射为类别分数向量,再利用Softmax激活层将类别分数向量转换为概率分布,得到点云数据中每个点属于不同类别的概率。本发明旨在更好地适应电力杆塔的点云数据特征,利用分层神经网络对电力杆塔点云数据实现快速、准确的自动化分割。
张辉;赵伟;曹意宏等. 一种基于自注意力网络的高光谱图像分类特征提取方法[P]. 湖南省:CN202411088848.4, 2024-08-09.(实审)
摘要:本发明公开了一种基于自注意力网络的高光谱图像分类特征提取方法,提出了基于空谱自注意力机制的特征提取网络,直接利用初始输入进行光谱注意操作和空间注意操作,将其结果进行联系,将光谱注意力机制和空间注意力机制引入特征提取网络中,使得网络更加关注检测任务感兴趣的区域,避免光谱数据被破坏和光谱重要性无法正确提取的问题;并且提出了基于光谱中心自注意力网络的特征提取网络,计算贡献率最大的光谱与其他光谱之间的相似度,避免不同光谱之间不相关的影响,使得神经网络更多地关注贡献大的光谱波段,提取图像光谱局部差异特征,提升高光谱图像分类精度。
张辉;赵伟;刘立柱等. 基于跨尺度空谱特征融合网络的病理高光谱图像检测方法[P]. 湖南省:CN202411244312.7, 2024-09-06.(预审通过)
摘要:本发明公开了一种基于跨尺度空谱特征融合网络的病理高光谱图像检测方法,该方法提出了基于跨尺度空谱特征融合的特征提取网络,首先,在编码器阶段利用膨胀卷积提取多尺度信息,从而使得网络更好的得到多个感受野的特征信息;然后,在编码器和解码器的跳跃连接阶段,利用 transformer的变形进行跨尺度间特征提取,可以更好的保留输入图像样本的全局上下文信息和布局信息;最后,为了缓解空谱特征提取困难,在解码器部分提出特征注意力机制,对解码器不同层的输出进行处理,获取更丰富的跨层特征,提取不同层之间更重要的特征信息,从而提高网络的分割性能,使得的神经网络更好的提取光谱特征融合信息,提升病理高光谱的检测精度。
吴晟;赵伟;孙云龙等. 电力设备缺陷图像扩散生成方法及系统[P]. 湖南省:CN202411618092.X, 2024-11-13.(已申请)
摘要:本发明公开了一种电力设备缺陷图像扩散生成方法及系统,涉及电力视觉技术领域,包括步骤:将正常原始图像划分为多个子区域图像并进行位置编码;进行降维和映射得到低维空间的原始特征图和文本特征嵌入:添加高斯噪声得到噪声特征图;进行特征提取得到第一特征图和第二特征图;得到融合特征图;去除缺陷噪声得到映射特征图;若满足预设终止条件,则采用解码器将映射特征图还原到三维空间,得到与拟定缺陷文本提示对应的电力设备缺陷扩散图像,若不满足预设终止条件,则将映射特征图更新为噪声特征图并重复上述步骤。本发明的方法,兼顾了生成质量和结果的多样性与真实性,能够为下游视觉任务提供全新的训练样本,同时所需算力资源较少、易于实施。
"黄志鸿,张辉,孙云龙等. 一种电力导线点云分割方法、系统及介质[P].湖南省:CN202410590292.2,2024-5-13.(实审)
"
摘要:本发明公开了一种电力导线点云分割方法、系统及介质,本发明包括利用分组特征提取与多级注意力融合网络进行电力导线点云提取,包括将点云数据升维后通过多层集合抽象层SA进行分层特征抽象,再将输出的特征经过特征上采样层FUS得到分组局部特征;同时将升维后的点云数据通过多级自注意力层TR后再通过多级残差连接、融合提取点云逐点特征;将分组局部特征、点云逐点特征经特征融合层FF融合得到点云全局特征向量,并通过线性层映射为类别分数向量,经过Softmax层激活得到每个点的预测标签。本发明旨在高效地提取电力导线点云数据特征,有效提高复杂场景下电力导线点云的准确率和效率。
黄志鸿,张辉,梁志佳等. 一种基于小样本目标检测的配网线路异物检测方法及系统[P]. 湖南省:CN202310737973.2, 2023-6-20.(实审)
摘要:本发明公开了一种基于小样本目标检测的配网线路异物检测方法及系统,本发明包括针对异物类别图像异物图像,将异物类别图像异物图像训练异物类别图像异物图像生成网络模型并增加异物类别图像异物图像的样本数量;将所有类别图像统一格式并进行标注处理并形成异物数据集;统计异物数据集中所有类别图像的锚点框的长宽比,生成锚点框模板;采用锚点框模板、基于基类训练集训练特征提取网络;构建改进小样本目标检测网络模型,利用等量训练实例完成对改进小样本目标检测网络模型的训练,并保存改进小样本目标检测网络模型中最优的权重参数和超参数。本发明旨在减少了人工参与且确保检测实时性,在极少量异物样本中实现高检测精度、能取得好的检测效果。
张辉,梁志佳,陈波等. 一种自主学习训练可视化系统及其方法[P]. 湖南省:CN202310669792.0, 2023-6-7. (实审)
摘要:本发明公开了一种自主学习训练可视化系统及其方法,系统包括可视化模块和封装库,可视化模块包括若干个具有不同功能的可视化子模块,封装库包括网络结构封装库,通过程序调用网络结构封装库,从网络结构封装库中预设的若干个深度神经网络中选取目标网络,从若干个具有不同功能的可视化子模块中选取目标可视化子模块,通过选取的目标可视化子模块对选取的目标网络进行可视化,得到目标网络的可视化结果。该方法可以方便快捷得到各种可视化结果,增强深度学习算法的可解释性,实现神经网络的组态浏览与分析。
张辉,梁志佳,胡非易等. 面向高端智能控制器的自主学习可视化软件
摘要:本软件公开了一种自主学习训练可视化系统及其方法,系统包括可视化模块和封装库,可视化模块包括若干个具有不同功能的可视化子模块,封装库包括网络结构封装库,通过程序调用网络结构封装库,从网络结构封装库中预设的若干个深度神经网络中选取目标网络,从若干个具有不同功能的可视化子模块中选取目标可视化子模块,通过选取的目标可视化子模块对选取的目标网络进行可视化,得到目标网络的可视化结果。该方法可以方便快捷得到各种可视化结果,增强深度学习算法的可解释性,实现神经网络的组态浏览与分析。
2024年第五届湖南省人工智能大赛二等奖. 唐友源,蒋雄杰. 彭振宇. 指导老师:张辉
《基于双分支特征融合网络的电力导线覆冰检测系统》《基于双分支特征融合网络的电力导线覆冰检测系统》:覆冰可能导致电力导线过载、断线或融冰跳跃,严重威胁电网的稳定运行。为解决现有覆冰检测方法的不足,我们团队借助深度学习与传感器技术的发展,开发了一款基于双分支特征融合网络的电力导线覆冰检测系统。该系统包括数据采集、覆冰厚度计算方法及界面可视化展示三个部分。检测流程为通过搭载LiDAR等传感设备的无人机,在复杂山地和恶劣气候下,实时获取电力线路的三维点云和地理坐标数据。随后,通过双分支特征融合网络对点云进行语义分割,提取导线点云数据,最后通过设计多核自适应覆冰检测算法进行覆冰分析。并在设计的可视化界面上进行结果展示。
2024年第三届湖南省计算机创新大赛二等奖. 蒋雄杰. 唐友源. 指导老师:张辉
《医药高光谱成像与检测系统》本项目“AI赋能-医药高光谱成像与检测系统”致力于开发一种高端的医药检测仪器,以响应国家对生物医药行业的重视和推动其发展。项目背景突出了医药安全的重要性,并指出了现有检测技术的不足。项目利用高光谱成像技术,能够对医药成分、品质、含量等进行快速、无损和精确的测量,解决传统检测方法的局限性。研究现状显示,尽管国外技术先进,国内尚处于起步阶段,本项目旨在缩小这一差距。项目目标是研制集高光谱成像、拉曼光谱检测、图谱大数据分析于一体的仪器,以自动分析药品的多种参数,促进医药科研和保障安全。技术创新包括高光谱硬件平台、成像系统和药物分析系统的设计,以及基于4bit量化的CNN部署方法,实现在资源受限设备上的深度学习模型部署。系统测试验证了所提方法的有效性,预示着项目对医药检测领域的重大贡献。
2024年第十九届中国研究生电子设计竞赛华中赛区二等奖. 刘航,刘宇,唐友源 指导老师:张辉
《基于双分支特征融合网络的电力导线覆冰检测方法》覆冰引起的电力导线过载、断线和融冰跳跃,严重威胁着电网的稳定运行。因此,本文提出了一种基于双分支特征融合网络的电力导线覆冰检测方法,以精准识别电力导线覆冰状态。首先,通过数据滤波和数据增强方法,解决点云数据样本不足和类别不平衡的问题。随后,构建了基于双分支特征融合的点云语义分割框架,通过融合分层特征抽样和多级注意力,实现电力导线点云高精度提取。本文设计了三种基于点云数据的电力导线覆冰检测方法,并在实际采集的数据集上选取最优方案。实验表明,本文方法在电力导线点云分割方面表现优异,mIoU和mAcc分别为94.6%和97.3%;在覆冰厚度检测方面,平均厚度偏差为9mm,误判率为7.9%,显著提升了电力导线覆冰检测的精度与可靠性,具有广阔的应用前景。
2023年第四届湖南省人工智能创新大赛一等奖. 陈为立,黄长庆,梁志佳. 指导老师:张辉
《智能双臂协同配药机器人及检测平台》本项目设计了一套双臂机器人配药制药系统与平台,用于在药物生产与研发环境中进行小批量、定制化的自动化药液配制与检测任务。在药物研制过程中使用双臂配药制药机器人辅助医药研究人员实现药物的自动化配置,能够有效地实现无菌化操作,大幅降低药物污染的风险,保障药物的质量和安全。同时,在药物生产过程中使用双臂配药制药机器人完成重复性的制药工作,能够极大的节约人力和开发成本,满足配药制药机器人低污染、高灵活性、高效率的作业需求。此外,在药业质检过程中,结合深度学习算法与高光谱的智能化异物检测模型,实现药液高精度异物检测,保证药液的生产质量与安全。故此双臂配药制药机器人在医药开发、疫苗研究、批量定制化生产等领域具有极大的经济和社会意义。
2024年第六届“华为杯”中国研究生人工智能创新大赛二等奖. 黄长庆,陈为立,梁志佳. 指导老师:张辉
《智能双臂协同配药机器人及药液检测平台》本项目的整体目标是针对高端制药生产过程中的特殊工艺流程需求,拟利用多机器人协同控制、智能自主规划与人工智能等技术相结合,设计一个能够自主完成无菌配药、质量检测的智能双臂协同配药机器人及药液检测平台,实现药品配药的高速高精度全流程自动化,以提高配药效率。同时满足客户柔性化定制,小批量试制等需求;并配置层流系统,保证作业空间内为无尘高洁净度环境。
2023年第二届湖南省计算机创新大赛一等奖. 陈为立,黄长庆,梁志佳. 指导老师:张辉
《智能双臂协同配药机器人及检测平台》本项目实现的功能是利用双臂协同机器人将液体试剂按照拟设定配方工艺进行配置,并将配置完成的试剂精确的注入器皿中,器皿通过输送带前往配药与检测交互区域进行药瓶封装,后在检测工位完成药液异物检测,实现全自动化的药液配置生产与检测。
Note: * indicates the corresponding author.
项目组成员
邱宇 副教授
青年教师
计算机视觉
牛通之 博士
在站博士后
工业检测
曹意宏 博士
合作研究
多场景自适应
杜瑞
2022级博士在读
点云识别与处理
别克扎提·巴合提
2023级博士在读
机器视觉与工程应用
陈厚权
2025级博士在读
视觉大模型
刘航
2023级硕士在读
小目标检测
唐友源
2023级硕士在读
点云语义分割
吴读桑
2023级硕士在读
动作识别与视频理解
张羽宏宣
2024级硕士在读
时序预测
颜星雨
2024级硕士在读
时序预测
王梓洋
2025级硕士在读
大模型微调
吴虹邑
2025级硕士在读
除冰机器人
学术&活动
学术竞赛
学术会议
校企合作
团建活动
毕业合照
毕业合照
如果您对此领域感兴趣并想加入我们的研究, 请联系我们(buick951227@163.com(别克扎提); durui@hnu.edu.cn(杜瑞); ai4modal@126.com(多模态组))或者张辉教授(zhanghuihby@126.com).谢谢!
|