Turbot fish egg recognition and counting method based on CBAM-UNet
-
摘要:
大菱鲆 (Scophthalmus maximus) 鱼卵数量的精准统计是影响其苗种优选过程的重要因素。由于大菱鲆鱼卵体积微小、透明度高且容易粘连,目前人工操作效率低下且误差较大。为了实现鱼卵的自动、快速、准确计数,根据大菱鲆鱼卵的成像特点,提出了一种基于卷积块注意力机制和U形卷积神经网络 (CBAM-UNet) 的大菱鲆鱼卵计数方法。首先,设计了一套由工业相机、漫反射光源和图像采集箱构成的标准化鱼卵采样结构,获取无影的高清鱼卵图像,构建鱼卵图像样本集;随后,以UNet网络作为基础语义分割模型,针对鱼卵图像中无法有效分割鱼卵与背景边界及细节等问题,进一步引入了双重注意力机制,以增强模型对鱼卵特征的表达能力,提高分割精度;最后,根据分割后鱼卵面积、拍摄高度及鱼卵数量等构建多元线性回归模型,实现鱼卵的精准计数。结果表明,所提出的基于CBAM-UNet的鱼卵识别计数方法能有效提高大菱鲆鱼卵的计数精确度,平均计数误差为6.32%,低于基于其他模型和人工统计方法(质量比对法)的平均计数误差。
Abstract:The accurate statistics of the number of turbot (Scophthalmus maximus) eggs is a crucial factor affecting the seedling selection process. Due to the small size, high transparency, and easy adhesion of turbot eggs, the manual counting methods are inefficient and prone to significant errors. To achieve automated, rapid and accurate counting of turbot eggs, a turbot fish egg counting method based on convolutional block attention mechanism and U-shaped convolutional neural network (CBAM-UNet) is proposed. According to the imaging characteristics of turbot eggs, a standardized fish egg sampling structure composed of an industrial camera, a diffuse reflection light source, and an image acquisition box was first designed and developed to obtain shadow-free high-definition egg images and construct a fish egg image sample set. Then, with UNet network as the basic semantic segmentation model, a dual attention mechanism was further introduced to enhance the segmentation of the boundaries and details of fish eggs and the background, so as to improve the expression ability of the model to the egg features and the segmentation accuracy. Finally, a multiple linear regression model was constructed based on the segmented fish egg area, shooting height, and the number of fish eggs to achieve accurate counting of the fish eggs. Experimental results show that the proposed recognition and counting method based on CBAM-UNet can effectively improve the accuracy of fish egg counting, with an average counting error of 6.32%, lower than the average counting error of other models and manual statistical methods (Quality comparison method).
-
Keywords:
- Scophthalmus maximus /
- Egg counting /
- Semantic segmentation /
- U-Net /
- CBAM /
- Linear regression analysis
-
鱼苗孵化率统计是大菱鲆 (Scophthalmus maximus)工厂化繁育过程中至关重要的环节,而鱼卵计数作为评估孵化率的重要指标,对评估大菱鲆繁殖力和筛选优质种苗具有重要意义[1]。目前,鱼卵计数主要依赖人工操作,其中包括体积比对法和质量比对法。但这些方法存在时间成本高、劳动强度大和操作误差大等问题。因此,亟需开发一种自动化、精准且高效的大菱鲆鱼卵计数方法,以便能够快速、准确地进行鱼卵计数。
与人工方法相比,计算机视觉技术具有精度高、非接触、速度快等特点,能够显著提高工作效率和计数精度,现已广泛应用于智能识别和智能计数等领域[2-4]。目前,已有利用计算机视觉技术开展相关颗粒物计数的研究报道。例如,在大型颗粒物计数方面,李琼等[5]提出了基于空间滤波去噪和大津法 (Otsu's method, OTSU算法) 的大豆颗粒计数方法。该方法结合了图像去噪、最佳全局阈值分割算法及连通域算法来实现大豆颗粒的识别计数。但该算法在处理粘连颗粒物时精度较低。为解决这个问题,司艳丽和朱伟兴[6]提出了一种基于k-means聚类的多层颗粒物计数方法,但该方法主要针对个体较大且对比度较高的颗粒物,无法满足微小、透明鱼卵的计数要求。在微小颗粒计数方面,张杭文等[7]提出了一种基于轮廓检索与绘制的鱼卵计数方法,利用最佳阈值分割和连通域算法实现鱼卵个数的自动计数。然而,随着鱼卵数量的增加,该方法的精确度逐步降低。为提升高密度鱼卵计数的准确度,Arthur等[8]提出了一种基于Image-Pro Plus软件的石斑鱼 (Epinephelus sp.) 鱼卵和胚胎数量计数方法,但该方法在粘连目标计数方面的精度较低。为解决因粘连导致的小目标计数精度不足问题,王硕等[9]提出了一种基于曲线演化图像处理方法对大菱鲆鱼苗进行计数,所采用的水平集方法能有效提高粘连目标分割性能。然而,基于水平集的方法在推演速度上往往较慢,并且对初始分割轮廓的准确性有较高要求。因此,在运行速度和模型的鲁棒性方面,这些方法通常难以同时满足这项要求。
综上所述,现有的颗粒物计数任务主要分为2类:一类是针对目标物体较清晰、个体较大的颗粒物计数任务[10];另一类是针对微小、透明颗粒物目标的计数任务[11]。对于第一类任务,传统的图像分割和机器学习方法便可获得较好的计数精度。对于第二类任务,由于被识别的颗粒物对象结构微小且与背景的边界不清晰,传统图像处理手段难以实现有效的目标提取;并且目前针对成像特征不明显颗粒物的机器学习计数方法尚不成熟,因此现有的方法大多是结合人工操作和工具软件来实现目标计数。但是这类方法通常针对性不强,或未考虑背景干扰对前景提取精度的影响,导致数据质量不高、计数精度有限。
为了获得更高的计数精度,在计数前,应对图形进行有效预处理,如去噪、增强对比度和消除背景干扰;然后,采用先进的分割方法进行图像处理,以提高对目标颗粒物的识别和计数准确性。这些分割方法包括但不限于基于深度学习的语义分割[12]、利用多尺度特征[13]及结合形态学处理技术[14]的分割方法。U-Net[15]是一种典型的基于深度学习的语义分割模型,现已被广泛应用于各种图像分割任务中[16-18],但其在处理特征不显著的目标图像时具有局限性。大菱鲆鱼卵具有体积微小 (直径约0.91~1.20 mm)、半透明和高粘连度等特点,容易受到光照造影、背景投影以及光线折射等干扰噪声的影响。因此,传统的U-Net网络并不能完全满足鱼卵识别和计数的任务需求。针对特征不显著的图像目标,部分学者通过增加密集跳跃来解决这一问题,例如U-Net++[19]。但该方法在关注特定通道或空间特征的能力方面相对较弱。在计算机视觉领域,一个常用的解决方法是引入注意力机制[20-22],例如空间注意力 (Spatial Attention Module, SAM)[23]、通道注意力 (Channel Attention Module, CAM)[24]和基于卷积块的注意力机制 (Convolutional Block Attention Module, CBAM)[25]等,而在鱼卵识别计数中,鲜有同时结合注意力机制和分割模型的解决方案。
针对上述问题,本研究提出一种U-Net网络[15]和双重注意力机制[24]的大菱鲆鱼卵计数方法。首先,设计一套多路补光、环境稳定的鱼卵图像采样结构,获取无造影、无阴影的大菱鲆鱼卵图像,并构建图像样本集。然后,以U-Net网络为基础,结合双重注意力机制,构建一个基于像素级别的鱼卵分割模型,旨在进一步提高鱼卵分割的精度。随后,利用分割后的图像,结合多元线性回归模型来计算鱼卵的数量,以期提高鱼卵数量统计的精确度。最后,对比分析了6种网络模型的分割性能,并比较这些模型与人工质量比对法的鱼卵计数精确率,以验证本研究方法的有效性。
1. 材料与方法
1.1 图像采集
大菱鲆鱼卵图像采集于威海圣航水产科技有限公司育苗养殖场繁育车间。为获取高质量、无影的样本图像,针对车间灯光等现场不可控环境对图像质量的影响,设计了如图1所示的标准鱼卵图像采样黑箱。黑箱由图像采集箱 (规格40 cm×40 cm×40 cm)、工业相机、塑料托盘(规格350 mm×350 mm)、漫反射光源、支架、笔记本电脑组成。其中,工业相机型号为大恒ME2P-
2621 水星二代Pro彩色工业相机,分辨率为5 120像素×5 120像素,像元尺寸为2.5 μm,焦距为8 mm。笔记本电脑使用联想ThinkPad,系统为Windows 11,CPU为i7-10510U,显卡采用NVIDIA GeForce MX330,内存容量为16 GB。漫反射光源功率为300 W。在样本采集过程中,为解决在白光照明条件下鱼卵因半透明、粘连特性导致的与背景区分困难问题,以及重叠目标的分割和精确计数难题,采用了多种背景颜色和不同重叠程度来拍摄鱼卵图像。通过对比发现,在浅色背景下,由于鱼卵与背景颜色的反射率和亮度相近,导致鱼卵的边缘轮廓模糊,使得后续的图像标注和自动化分析难以进行,为此本研究选用红棕色为图像背景。此外,在2层及多层鱼卵重叠的情况下,即使在优化后的背景色条件下,对重叠区域的鱼卵进行识别与标注仍存在挑战,尤其是上层鱼卵的轮廓识别,其难度尤为显著。为了提升样本集的标注精确度和数据质量,采用了单层鱼卵图像来构建样本集,确保每个鱼卵的轮廓清晰,便于后续的图像处理和分析。
本实验图像原始分辨率为5 120像素×5 120像素,共采集22幅,其中15幅用于构建分割模型所需的数据集,7幅用于对比验证不同分割模型下的识别精确度。
在所采集的图像中,鱼卵与水中的杂质以及不同背景色共存,鱼卵在图像中的分布位置完全随机,涵盖各种可能的鱼卵分布形状,确保了图像中鱼卵的分布情况与实际场景相一致。
1.2 样本集构建
为减少图像中背景颜色和曝光干扰的影响,将图像裁剪为2 485像素×2 604像素。此外,在保证语义分割效果的前提下,为了提高模型的训练速度,将每张图像分割成90张分辨率为572像素×572像素的小图像。
利用labelme (V4.4.5)的多边形 (Ploygons) 实现图像语义标注图像标注如图2所示。其中,图2-b中鱼卵区域标签像素为1,背景区域标签像素为0。
按照PASCAL VOC 2012格式[26]制作大菱鲆鱼卵图像数据集。在模型训练过程中,按照70%、20%和10%的比例将图像划分为训练集 (945 幅)、验证集 (270 幅) 和测试集 (135 幅)。
1.3 鱼卵图像分割模型
鉴于大菱鲆鱼卵微小且具有半透明结构,易受光线折射和背景干扰的影响,因此,本研究采用U-Net网络作为基准分割模型,并引入了双重注意力机制,包括位置注意力模块和通道注意力模块,以增强模型对鱼卵图像的表达能力和特征提取能力,以有效提升鱼卵分割的精确度。
1.3.1 U-Net网络
U-Net是一个经典的图像语义分割模型,其主要由编码器-解码器[16]和跳跃连接组成,网络结构如图3所示。
编码器包含5组卷积块以及4个下采样层。其中,每个卷积块包含2个3×3卷积操作和1个ReLU激活函数,完成输入图像的特征提取。下采样层通过1个2×2最大池化操作,实现对特征图的降维。在本研究的应用场景中,堆叠卷积层与激活函数的操作不仅增强了网络的表达能力,还保留了局部信息,使得细微的鱼卵边界和内部结构得以被充分识别。最大池化操作在降低特征图维度的同时,实现了对鱼卵以及背景特征的提取,提高了计算效率。这种逐层特征提取和降维的方式,有效地捕获了鱼卵在图像中的多尺度特征。
解码器的结构与编码器对应,其包含4组卷积块以及4个上采样层。其中,上采样层通过1个2×2转置卷积实现了对特征图的尺寸恢复。在本研究的应用场景中,解码器逐步恢复被编码器压缩的鱼卵特征图,并将低分辨率的特征图逐渐放大回原始的图像分辨率。这种逐层恢复特征图尺寸的方式确保了在分割过程中不丢失细节信息。结合跳跃连接结构,使得解码器能够融合来自编码器的高分辨率细节特征,在恢复图像全局结构的同时,保留和细化了鱼卵的局部特征,进一步增强了对鱼卵边界的准确分割能力。
然而,基础的U-Net结构在处理大菱鲆鱼卵图像分割任务时存在一定的局限性。由于鱼卵具有微小且半透明的结构特征,U-Net采用卷积运算的感受野有限,影响了其对图像中远距离像素间空间依赖关系的捕捉,导致细节特征提取不足。此外,该结构的卷积操作未充分利用特征图不同通道之间的相关性,在提取鱼卵特征时,无法有效加强鱼卵特征,抑制无关或干扰背景特征,导致鱼卵与背景之间的分割边界模糊。针对上述问题,为了增强大菱鲆鱼卵特征表达能力,提高鱼卵与背景边界检测精度,提升鱼卵图像分割性能,本研究在U-Net网络的基础上引入了CBAM模块。
1.3.2 CBAM-UNet网络
本研究引入CBAM后的U-Net网络结构如图4所示。其中编码器主要用来进行高层次的语义特征提取,解码器主要用来逐步恢复被解码器压缩的特征图,并结合跳跃连接结构,保留和细化了鱼卵的局部特征。为进一步提升特征表达能力,在每个卷积块中添加了基于卷积的注意力模块CBAM,其结构如图5-a所示。该结构通过CAM和SAM机制在通道与空间维度上同步构建语义依赖关系[24],来同时关注空间位置和特征通道,提升图像分割任务的精度和鲁棒性。其中,CAM主要用于构建不同通道中间的依赖关系,加强了特征信息,提高特征的可判别性,有效增强了图像中鱼卵区域的特征表达能力,其结构如图5-b所示。更新后的特征图 $ F\,{\text{'}}$ 的计算方法为:
$$ \begin{array}{c} F\,{\text{'}}(c,i,j){\mathrm{=}}\sigma \Biggr\{ \sigma \Biggr[{W}_{1}\Biggr( \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\Biggr({W}_{0} \Biggr[\dfrac{1}{H\times W}\sum _{i{\mathrm{=}}1}^{H}\sum _{j{\mathrm{=}}1}^{W}F(c,i,j){\mathrm{+}}\Biggr.\Biggr.\Biggr.\Biggr.\Biggr.\\ \Biggr.\Biggr.\Biggr.\Biggr.{\mathrm{m}\mathrm{a}\mathrm{x}}_{1\leqslant i\leqslant H,1\leqslant j\leqslant W}F(c,i,j)\Biggr]\Biggr)\Biggr)\Biggr]\Biggr\}\cdot F(c,i,j)\\[-20pt] \end{array} $$ (1) 式中:$ F\,{\text{'}}\in {R}^{C\times H\times W} $为加权后的特征图;$ C $ 为通道数;H和 $ W $分别为特征图的高度和宽度;$ i $ 和 $ j $ 分别为特征图中的行数和列数;$ {W}_{0}\in {R}^{C\times C/r} $ 和 $ {W}_{1}\in {R}^{C/r\times C} $为2个全连接层的权重矩阵;ReLU是激活函数;σ是 sigmoid 函数。
SAM解决了基础U-Net结构在细节特征提取上不足的问题,主要通过增强对关键特征的关注,抑制不相关的背景信息,来提高对鱼卵图像细节特征的捕捉能力,其结构如图5-c所示。更新后的特征图 $ {F}\,{\text{'}}{\text{'}}$ 的计算方法为:
$$ \begin{array}{c} {F}\,{\text{'}}{\text{'}}(c,i,j){\mathrm{=}}F{\text{'}}(c,i,j)\cdot \sigma {\{}{\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{7\times 7}[\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}({}_{1\leqslant c\leqslant C}{}^{\mathrm{m}\mathrm{a}\mathrm{x}}F\,{\text{'}}{\text{'}}(c,i,j),\\\dfrac{1}{C}\sum _{c{\mathrm{=}}1}^{C}F{\text{'}}(c,i,j)]\}\\[-6pt] \end{array}$$ (2) 式中:$ {F}\,{\text{'}}{\text{'}}\in {R}^{C\times H\times W} $;$c\in C $ 为通道数;i、j分别为行数和列数;$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{7\times 7} $ 为7×7的卷积核;$ \sigma $ 为sigmoid激活函数,用于将卷积输出映射到 [0, 1] 之间。
通过上述改进,CBAM-UNet网络在处理复杂背景时的分割性能得到了显著提升,进一步增强了对图像中鱼卵区域分割的能力,提升了图像分割任务的精度和鲁棒性。
1.4 基于多元线性关系的鱼卵计数方法
相比于传统的面积域计数法,本研究提出了一种基于多元线性关系的鱼卵图像计数方法,旨在提高鱼卵计数的精确度。该方法通过构建图像中鱼卵像素总面积、鱼卵单个像素面积、鱼卵实际大小及拍摄距离等与数量之间的多元线性关系,实现对鱼卵数量的精准计数。其公式为:
$$ y{\mathrm{=}}{\beta }_{0}{\mathrm{+}}{\beta }_{1}{x}_{1}{\mathrm{+}}{\beta }_{2}{x}_{2}{\mathrm{+}}{\beta }_{3}{x}_{3}{\mathrm{+}}{\beta }_{4}{x}_{4} $$ (3) 式中:$ {\beta }_{0}、{\beta }_{1}、{\beta }_{2}、{\beta }_{3}、{\beta }_{4} $为回归系数,值分别为0.028 4、0.98、−0.025 7、−0.013 6、0.000 9;$ y\mathrm{、} {x}_{1}、{x}_{2}、{x}_{3}、{x}_{4} $ 分别为鱼卵数量、鱼卵像素总面积、鱼卵单个像素面积、鱼卵实际大小、拍摄距离。其中鱼卵像素总面积 $ {x}_{1} $ 的计算公式为:
$$ {x}_{1}{\mathrm{=}}{C}_{i}{\text{−}}{\sum }_{j}^{n}{H}_{j} $$ (4) 式中:$ {C}_{i} $ 表示第i个鱼卵轮廓域面积,i表示单幅图像中独立轮廓的数量;$ \sum _{j}^{n}{H}_{j} $ 表示在 $ {C}_{i} $ 中存在的所有背景域面积总值,j表示 $ {C}_{i} $ 轮廓中背景轮廓数量。
单个像素面积 $ {x}_{2} $ 的计算公式为:
$$ {x}_{2}{\mathrm{=}}\dfrac{f}{d}\times h\div A $$ (5) 式中:f表示相机焦距;d表示拍摄平台到相机的距离;h表示鱼卵实际大小;A表示传感器的像素尺寸。其中,f为8 mm,h为鱼卵平均直径为1 mm,A为2.5 μm。
此外,分割后的鱼卵图像中存在误分割和错分割的区域。为有效减少图像中该区域的干扰,显著提升鱼卵计数方法的精确度和可靠性,需对分割后的鱼卵图像作进一步处理,该处理步骤对于确保后续鱼卵计数算法的准确度和鲁棒性至关重要。图像处理过程主要包括中值过滤、灰度化、二值化、轮廓提取以及轮廓层级关系提取等[20-24]。首先,采用中值滤波法处理图像,以解决线性滤波可能导致的图像模糊问题,并有效消除图像噪声;接着,对图像进行灰度化处理;最后,通过应用轮廓提取算法,提取出鱼卵的轮廓及其层级关系,从而精确计算图像中每个鱼卵区域的面积。
2. 结果与分析
2.1 实验设置
2.1.1 实验环境
本实验均在配备12th Gen Intel(R) Core(TM) i9-12900 CPU @2.40 GHz,64GB RAM 和NVIDIA RTX A400016GB的工作站上进行。实验环境为Python3.8和Tensorflow2.4.0+cu11.7[27]。本实验中所有输入图像分辨率统一调整为256像素×256像素,batchSize设置为16,总共训练20 轮,其训练损失曲线如图6所示。图中表明当迭代次数≥16 次时,其损失值的变化趋于平缓,因此将模型迭代次数定为20,防止模型发生过拟合现象。
2.1.2 评估指标
为了比较分析模型性能,本研究采用平均交并比 (Mean intersection over union, MIoU)[26]、平均像素识别准确率 (Mean pixel accuracy, mPA)[28]以及戴斯系数 (Dice similarity coefficient, DSC)[29] 作为标准化评价指标来衡量所有模型测试集的表现,采用每秒浮点运算次数 (Floating point operations per second, FLOPS) [30]与模型参数量 (Parameters) 2个指标来衡量模型计算量与复杂度。
MIoU用于评估图像分割模型的准确度,是预测分割区域与实际标注区域的交叉与并集的比值,其函数表达式为:
$$ \mathrm{M}\mathrm{I}\mathrm{o}\mathrm{U}{\mathrm{=}}\dfrac{1}{k{\mathrm{+}}1}{\sum} _{i{\mathrm{=}}0}^{k}\dfrac{{p}_{ii}}{\sum _{i{\mathrm{=}}0}^{k}{p}_{ij}{\mathrm{+}}\sum _{i{\mathrm{=}}0}^{k}{p}_{ji}{\text{−}}{p}_{ii}} $$ (6) 式中:k为类别数量,k+1为含有背景类的类别数量,文中k+1为2;$ {p}_{ii} $ 为将i预测为i,为真正;$ {p}_{ij} $ 为将i预测为j,为假负;$ {p}_{ji} $ 为将j预测为i,为假正。
mPA主要用于衡量模型在像素级别上的分割性能,是每个类别的像素识别准确率的平均值,定义为:
$$ \mathrm{m}\mathrm{P}\mathrm{A}{\mathrm{=}}\dfrac{1}{C}{\sum} _{i{\mathrm{=}}1}^{C}\dfrac{{T}_{i}}{{T}_{i}+{F}_{i}} $$ (7) 式中:i表示第i类的像素;C表示类别的总数;$ {T}_{i} $ 表示第i类被正确分类的像素数;$ {F}_{i} $ 表示第i类被错误分类的像素数。
DSC是衡量两个样本集合相似度的统计指标,用于评估图像分割任务中模型分割结果的准确性。其表示预测分割结果与实际分割标签之间的重叠程度,定义为:
$$ \mathrm{D}\mathrm{S}\mathrm{C}{\mathrm{=}}\dfrac{2\cdot \left|A\cap B\right|}{\left|A\right|{\mathrm{+}}\left|B\right|} $$ (8) 式中:A表示预测前景分割结果的像素集合;B表示实际前景分割标签的像素集合;$ \left|A\cap B\right| $ 表示预测与实际前景分割结果的交集像素数;$ \left|A\right| $ 和 $ \left|B\right| $ 分别表示预测和实际前景分割结果的像素总数。
为评估不同分割模型下的鱼卵图像计数的准确性,采用绝对误差百分比(Absolute percentage error, APE)[31]作为计数准确率的评估指标。APE主要用于衡量模型预测计数结果与实际计数之间的偏差程度,其公式为:
$$ \mathrm{A}\mathrm{P}\mathrm{E}{\mathrm{=}}\dfrac{1}{N}{\sum} _{i{\mathrm{=}}1}^{N}\left|\dfrac{{C}_{{\mathrm{pred}},i}{\text{−}}{C}_{{\mathrm{true}},i}}{{C}_{{\mathrm{true}},i}}\right|\times 100{\text{%}} $$ (9) 式中:$ {C}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d},i} $ 表示第i张图像的预测计数;$ {C}_{\mathrm{t}\mathrm{r}\mathrm{u}\mathrm{e},i} $ 表示第i张图像的实际计数;N表示测试图像的总数。
2.2 消融对比分析实验
为了验证改进的U-Net模型对鱼卵图像进行语义分割的有效性,本研究设计了消融实验。在编码器结构中,每个池化操作前分别引入CAM、SAM以及结合CAM和SAM,对这些改进进行对比分析。表1为基于U-Net的消融实验结果。
表 1 消融实验结果Table 1. Results of ablation experiment模型
Model空间注意力
CAM通道注意力
SAM平均交并比
MioU/% ↑平均像素识别准确率
mPA/% ↑戴斯系数
DSC/% ↑每秒浮点运算次数
FLOPS/G模型参数量
Parameter/MU形卷积神经网络U-Net 98.3 99.1 98.6 97.3 1.94 模型1 Model 1 √ 98.3 99.2 98.7 97.4 1.96 模型2 Model 2 √ 98.5 99.3 98.9 97.4 1.94 模型3 Model 3 √ √ 98.7 99.8 99.2 97.5 1.96 注:“√”表示模型采用了该模块;“↑”表示该参数值越大越好。 Note: "√" indicates that the model uses this module, and "↑" means that the larger the parameter value, the better. 模型1相比U形卷积神经网络U-Net,mPA提高了0.1%,DCS增加了0.1%。虽然MIoU保持不变,但mPA和DSC的增加表明,引入CAM机制可以在一定程度上改善特征提取过程,进而提升了模型在像素分割和目标区域分割上的性能。虽然参数量略微增加至1.96 M,但在FLOPS上仅有轻微增幅(97.4 G),说明该模型在保持计算效率的同时,提升了对关键通道特征的关注度。
模型2相比于模型1,MIoU提高了0.2%,mPA提高了0.1%,DCS增加了0.2%;与U-Net相比,模型2的MIoU提高了0.2%,mPA提高了0.2%,DCS增加了0.3%。结果表明,在引入SAM后,模型2在特征提取和区域分割性能上均显著优于模型1和U-Net,空间注意力机制显著提升了图像分割任务中的整体性能,增强了模型对空间特征的捕捉能力,特别是在处理边缘和小目标的效果进更为显著。值得注意的是,尽管性能有所提升,但该模型的参数量 (1.94 M) 与U-Net一致,FLOPS (97.4 G) 与模型1一致,说明模块在不增加计算负担的前提下,参数数量降低,模型性能得到了提升。
模型3与模型2相比,MIoU提高了0.2%,mPA提高了0.5%,DCS增加了0.3%;与模型 1相比,模型3的MIoU提高了0.4%,mPA提高了0.6%,DCS增加了0.5%;与U-Net相比,模型3的MIoU提高了0.4%,mPA提高了0.7%,DCS增加了0.6%。这说明同时引入CAM和SAM能够显著提升模型的整体分割精度、像素分割准确度以及目标区域分割准确度。虽然该模型的参数量增加至1.96 M,FLOPS也上升至97.5 G,但在考虑到性能有效提升的情况下,这一代价是合理的。
综上,模型3结合了通道和空间两方面的注意力机制,提供了更全面的特征表示能力,显著提高了模型的精度和鲁棒性,进一步验证了本研究方法的有效性。
2.3 分割性能对比分析实验
对改进U-Net模型与一些图像分割模型进行了比较,结果如表2所示。
表 2 不同图像分割模型的实验结果Table 2. Experimental results of differernt image segmentation models模型
Model平均交并比
MioU/% ↑平均像素识别准确率
mPA/% ↑戴斯系数
DSC/% ↑每秒浮点运算次数
FLOPS/G模型参数量
Parameter/M基于K均值聚类的分割方法KSeg 76.5 82.4 79.4 — — 全卷积神经网络U-Net FCN 92.3 94.7 93.7 215.0 0.518 嵌套U形卷积神经网络U-Net++ 97.4 99.2 98.2 123.0 0.112 基于通道注意力的U形卷积神经网络CBAM-UNet 98.7 99.8 99.2 97.5 1.960 注:“↑”表明该参数值越大越好 Note: "↑" indicates that the larger the parameter value, the better. 通过表2可得,本研究提出的CBAM-UNet模型在鱼卵图像语义分割任务中的表现优于基于K均值聚类的分割方法 (Kmeans-Segmetation, KSeg)[32]、卷积神经网络FCN[33]和U-Net++。与前3种模型相比,MIoU分别提升了22.2%、6.4%和1.3%,这表明在像素级别的分类准确度上有显著提升,能够更准确地识别和分割鱼卵图像中的鱼卵目标;其次,mPA分别提高了17.4%、5.1%和0.6%,该结果反映了CBAM-UNet模型在像素级别上正确分类的比例较高,表明其对像素级别的分割任务具有更准确的识别和分类能力;最后,DSC分别增加了19.8%、5.5%和1%,表示CBAM-UNet在模型分割结果与实际标注的重叠程度较高,其能够更准确地捕捉目标边界和形状信息,提高分割结果的准确性和连续性。
在FLOPS和参数量方面,FCN模型的参数量为0.518 M,显示出其模型结构相对复杂。结合其远高于其他模型的 FLOPS (2.15×102 G)和中等的分割性能,这意味着在进行语义分割时需要较大的计算资源且存储成本相对较高。尽管其mPA和DSC表现尚可,但相对较高的FLOPS显示该模型在执行效率上存在瓶颈,尤其在处理高分辨率图像时,可能导致显著的计算开销。
U-Net++的参数量仅为0.112 M,在所有模型中最低,这表明其结构经过了精简优化,使其在保证较高分割性能的同时,显著降低了模型的存储需求和计算复杂度。此外,其FLOPS (1.23×102 G) 显著低于FCN,结合其较高的MIoU、mPA和DSC,可以看出通过优化网络架构可在保证分割精度的同时,大幅减少了计算量。
相较于U-Net++和FCN,CBAM-UNet模型参数量为1.960 M,远高于U-Net++和FCN。这表明该模型在架构上引入了更复杂的特征提取和融合机制,以提升分割性能。尽管参数量增加,但其FLOPS 为97.5 G,远低于其他模型。结合其远超其他模型的分割性能,表明该模型不仅在分割精度上优于其他模型,同时在计算复杂度上也进行了有效优化,显著降低了计算资源的消耗。
综上,CBAM-UNet在FLOPS和参数量上的优化,使其在计算资源和模型精度之间达到了最佳平衡。尽管参数量较大,但结合其卓越的分割性能,进一步验证了CBAM-UNet在鱼卵图像分割上的有效性。
2.4 鱼卵计数对比分析实验
为了验证基于CBAM-UNet的大菱鲆鱼卵识别计数方法的有效性,以及分析不同分割模型对鱼卵计数的影响,以图像中实际统计的鱼卵数量为对照,比较分析了KSeg、FCN、U-Net、U-Net++、CAM-UNet、SAM-UNet以及CBAM-Unet (本研究方法) 7种网络分割模型下的多元线性回归统计以及人工统计的鱼卵数量,其中人工统计采用质量比对法 (Mass comparison method, MCM),即1 g质量约等于1 000颗鱼卵。不同方法计数均采用相同测试集,评估指标采用APE。表3列出了8种方法对7种不同质量鱼卵的计数结果,其中实际数量为人工根据测试图像计算校对,鱼卵质量依次为1.0、1.5、3.5、4.0、5.5、6.6、7.5 g。
表 3 鱼卵数量统计结果Table 3. Results of fish eggs counting statistics方法 Method
(计数误差△ Count Error△)实际鱼卵数量 Actual number of eggs 绝对误差百分比
APE/%↓938 1 324 3 018 3 211 4 684 5 276 6 286 基于K均值聚类的分割方法KSeg −213 −394 −805 −893 −1 154 − 1543 −1 956 27.4 质量比对法MCM +62 +176 +482 +789 +816 +1 324 + 1214 17.47 全卷积神经网络U-Net FCN −119 −202 −401 −468 −629 −863 −1 158 14.86 U形卷积神经网络U-Net −64 −110 −203 −235 −242 −409 −608 7.39 嵌套U形卷积神经网络 U-Net++ −61 −107 −208 −219 −239 −407 −599 7.23 基于通道注意力的U形卷积神经网络CAM-U-Net −59 −103 −197 −224 −234 −397 −598 7.09 基于空间注意力的U形卷积神经网络SAM-UNet −57 −98 −196 −221 −237 −398 −594 6.99 基于卷积块注意力的U形卷积神经网络CBAM-UNet −45 −87 −176 −204 −217 −376 −563 6.32 注:“↓”表明该参数值越小越好。 Note: "↓" indicates that the smaller the parameter value, the better. 从APE值来看,基于改进U-Net分割网络的鱼卵数量统计最低,其值为6.32%,与其他统计方法相比,分别降低了21.08%、11.15%、8.54%、1.07%、0.91%、0.77%和0.67%。KSeg方法下的APE (27.4%)最高,FCN方法和质量比对法分别为14.86%和17.47%,U-Net、U-Net++、CAM-UNet和SAM-UNet的APE值较为相近且远低于前3种计数方法,分别为7.39%、7.23%、7.09%和6.99%。这表明CBAM-UNet在鱼卵数量统计中表现最佳,精度最高。
在绝对误差数量方面,KSeg方法的绝对误差最高,且均显著高于其他模型。例如,在鱼卵数量为938 颗时,KSeg的误差为213 颗,远高于改进的U-Net方法(45 颗)。同时,其他方法的误差也均低于KSeg,尤其在鱼卵数量较多的情况下,误差的差异更为显著。例如,在鱼卵数量为6 286 颗时,KSeg的误差达到
1956 颗,而CBAM-UNet方法为563 颗。从误差分布趋势上看,所有方法的计数绝对误差均随着实际鱼卵数量的增加而增大,其中KSeg和质量比对法的误差变化趋势尤为明显,这表明该方法在处理大规模鱼卵计数时效果较差。相比之下,基于CBAM-UNet模型的计数误差变化趋势较小,表现出了稳定的误差分布特征,说明其在不同鱼卵数量条件下均能保持较高的计数精度。
2.5 不同注意力机制下分割效果分析
为验证本研究方法的有效性,对比分析了不同注意力机制影响下的分割结果图,其结果如图7所示。图中展示了基础U-Net模型和引入不同注意力机制后的3 种改进模型在3 幅不同背景复杂度和鱼卵数量图像上的分割效果。其中青色方框为局部区域放大后的结果,红框内为使用不同注意力模块时出现分割错误的区域。
如图7-c所示,基础U-Net网络在简单背景(图像1)中能够较好地分割出鱼卵区域,但在处理复杂背景和细节丰富的图像时,存在漏检和误检,尤其在图像2和图像3中,存在明显的误判和漏检现象,且边缘处理较差。相比之下,加入通道注意力机制的CAM-UNet模型 (图7-d) 在复杂背景下 (图像2和图像3)表现出了更高的分割精度,误判区域显著减少,使得分割结果更加精确,且对鱼卵区域边界和图像边界的处理有所改善。
引入空间注意力机制的SAM-UNet模型在捕捉图像空间特征方面表现优异(图7-e)。其分割结果更为精细和准确,尤其在复杂背景下 (图像3),能够显著减少背景干扰,捕捉到鱼卵的边缘和细节部分。相比之下,图7-f的CBAM-UNet模型综合了CAM和SAM的优势,在处理所有背景类型的图像时均表现出较强的鲁棒性和分割精度,特别在复杂背景下 (图像3),CBAM-UNet模型在鱼卵区域边缘处理更加完成,误检和漏检现象最少,分割的图像也更加细致。这进一步验证了本研究方法能够有效提高鱼卵图像分割精度。
2.6 不同模型分割效果分析
为进一步验证本研究方法在提升鱼卵分割精度方面的有效性,对比分析了不同分割模型的分割效果图。图8展示了4种不同分割模型在3幅不同背景复杂度和鱼卵数量图像上的分割效果。
由图8可见,KSeg的分割效果最差 (图8-c)。该方法仅基于颜色和位置等低层次特征进行聚类,无法提取高级语义特征,导致在图像复杂场景下难以区分目标物体与背景。其次,在高背景复杂度和高鱼卵数量图像 (图像3)中,该方法缺乏深度学习的特征提取和上下文理解能力,受图像中噪声干扰,导致其分割结果充满噪声、边缘模糊。
FCN采用基于全卷积网络的深度学习模型,有效保留了图像空间信息,提升了分割精度 (图8-d)。但其在处理复杂背景时存在一定的局限性,由于其在上采样过程中易丢失目标细节信息,导致分割效果较差,且在边缘处理和细节捕捉方面仍显不足。
对比前2种分割方法,U-Net++和CBAM-UNet通过改进基本U-Net网络结构来提升图像分割精度,分别如图8-e和8-f所示。U-Net++ 通过在编码器和解码器间引入多级跳跃连接,进一步优化了信息流动和特征融合。但该方法在较复杂背景下,受细节处理能力的限制,存在一定的误判和漏判。相较之下,本研究方法 (CBAM-UNet)通过结合通道和空间注意力机制的方式,自适应地调整了不同通道和空间位置的权重,提高了对鱼卵区域特征的捕捉能力。同时,该方法增强了重要特征通道的关注以及聚焦于鱼卵空间区域,进一步提升了分割精度和鲁棒性。此外,CBAM-UNet在复杂背景下仍能保持高精度的分割效果,其边缘处理细腻,误判和漏判现象显著减少。这表明CBAM-Unet网络在不同复杂背景、目标微小和密级的场景下,具有更高的分割精度及更低的误检和漏检情况,证明了本研究方法在鱼卵图像分割上的有效性。
2.7 鱼卵数量对分割计数效果影响分析
不同鱼卵数量对分割模型计数误差的影响如图9所示。该图展示了KSeg、质量对比法、FCN、U-Net、U-Net++、CAM-UNet、SAM-UNet及本研究方法在鱼卵计数中的误差趋势。
由图9可见,随着实际鱼卵数量的增加,图像中鱼卵区域面积变大且更加密集、复杂。更高的密度表示会出现重叠、挤压和遮挡的现象,使得单个鱼卵像素面积产生变化,导致分割任务更加困难,鱼卵计数绝对误差增加,最终影响计数的准确性。更高的图像复杂度表示图像分割精度会受到模型网络结构和泛化能力的影响,较为简单的网络结构将难以捕捉和处理高复杂度鱼卵图像中的细节和特征,导致误差较大。而复杂结构的模型则能更好地捕捉这些细节,提高分割精度,表现出更低的计数误差。
其中,KSeg方法的误差最大,质量比对法略低于KSeg但略高于FCN,FCN低于前2种方法但高于其他算法,U-Net、U-Net++、CAM-UNet、SAM-UNet和本研究方法的误差变化趋势相近。这是由于KSeg主要是基于距离进行分类,随着鱼卵数量的增加,该算法无法有效区分被挤压和紧密排列的鱼卵,导致分割性能下降,计数误差变大。而质量比对法主要受外部因素(不同质量鱼卵的含水量、称量仪器的计量精度、人工去除水分等)的影响,当鱼卵数量增加时,人工称量及操作均会导致计数误差增加。FCN的计数误差趋势前期较为平缓,但后期较为陡峭,这是因为其较为简单的网络结构,在处理中高度密度的鱼卵图像时,缺乏对细节的精细处理。而余下的模型均采用了较为复杂的网络结构,在图像细节处理和特征提取上均有较好表现。其中,本研究方法在特征提取和处理能力上表现最佳,计数误差低于其他模型且趋势较为平缓,表明本研究方法在处理复杂和高密度图像时具有更强的稳定性和更高的精度。
综上所述,本研究提出的CBAM-UNet网络结构能更好地处理图像中的细节和特征,增强了特征提取和处理能力。相比传统的K-means算法和其他分割模型,CBAM-UNet在各种鱼卵数量和背景复杂度的图像中均表现出更低的分割误差,表明其具有更高的稳定性和分割精度,进而降低了计数误差,提升了鱼卵统计准确率。这一结果验证了本研究方法在鱼卵图像识别计数上的有效性。
3. 结论
针对目前缺乏自动、精准且快速的大菱鲆鱼卵计数方法的行业现状,以及现有其他领域的解决方案在处理具有半透明、微小特性的大菱鲆鱼卵任务时效果不佳的问题,本研究提出了基于U-Net网络与双重注意力机制的大菱鲆鱼卵识别计数方法,先对鱼卵图像进行识别分割,再进行鱼卵计数。
1) 在U-Net基本网络架构基础上,根据本研究方法建立大菱鲆鱼卵语义分割模型,实现对图像中鱼卵的有效识别与分割。通过引入CBAM注意力机制,增强了模型对图像细节和特征的处理能力,从而显著提高了分割的准确性和稳定性。结果表明,训练过程中,模型的总体性能优于原始网络。测试集mIoU、mPA和DSC分别为98.7%、99.8%和99.2%,相比于原网络提高了0.4%、0.7%和0.6%。图像分割结果表明,通过本研究方法建立的大菱鲆鱼卵语义分割模型能够对图像中鱼卵区域进行精准识别与精细分割。
2) 同现有识别分割方法相比,本研究方法充分考虑了不同鱼卵数量和背景复杂度情况下的鱼卵区域分割问题,且该方法的MIoU (98.7%)、mPA (99.8%)、DSC (99.2%)均为最高。这表明本研究方法在处理复杂图像背景和不同鱼卵数量方面具有显著优势,有效提高了分割性能。
3) 本研究提出的基于U-Net网络与双重注意力机制的鱼卵计数方法,其绝对误差百分比 (APE) 为6.32%。与不同分割网络及人工统计方法相比,该方法的APE分别降低了21.08% (相对于KSeg)、11.15% (质量比对法)、8.54% (FCN)、1.07% (U-Net)、0.91% (U-Net++)、0.77% (CAM-UNet)和0.67% (SAM-UNet)。表明CBAM-UNet显著提升了鱼卵图像的分割精度,能够有效减少计数误差并提升统计的准确性。但该方法在处理重叠程度较大的鱼卵图像时仍有一定的局限性。当鱼卵之间的重叠区域较大时,模型在区分和分割这些重叠目标时容易出现误差,导致分割边界不清晰或部分鱼卵被错误地合并为一个整体。此外,由于鱼卵的透明特性和复杂的背景噪声,该方法在应对复杂光照条件和图像模糊情况下,可能难以准确捕捉目标的边缘和形态,从而影响最终的分割精度和整体效果。在实际应用中,该方法需要进一步优化和改进,提升对复杂场景的适应性和鲁棒性,实现对不同重叠程度的鱼卵图像进行识别计数,以提高方法的实时性;同时需进一步扩大不同鱼类的鱼卵识别计数,构建具备通用性的鱼卵识别计数方法,为后续常见鱼类繁育和种质挑选提供数据支撑。
-
表 1 消融实验结果
Table 1 Results of ablation experiment
模型
Model空间注意力
CAM通道注意力
SAM平均交并比
MioU/% ↑平均像素识别准确率
mPA/% ↑戴斯系数
DSC/% ↑每秒浮点运算次数
FLOPS/G模型参数量
Parameter/MU形卷积神经网络U-Net 98.3 99.1 98.6 97.3 1.94 模型1 Model 1 √ 98.3 99.2 98.7 97.4 1.96 模型2 Model 2 √ 98.5 99.3 98.9 97.4 1.94 模型3 Model 3 √ √ 98.7 99.8 99.2 97.5 1.96 注:“√”表示模型采用了该模块;“↑”表示该参数值越大越好。 Note: "√" indicates that the model uses this module, and "↑" means that the larger the parameter value, the better. 表 2 不同图像分割模型的实验结果
Table 2 Experimental results of differernt image segmentation models
模型
Model平均交并比
MioU/% ↑平均像素识别准确率
mPA/% ↑戴斯系数
DSC/% ↑每秒浮点运算次数
FLOPS/G模型参数量
Parameter/M基于K均值聚类的分割方法KSeg 76.5 82.4 79.4 — — 全卷积神经网络U-Net FCN 92.3 94.7 93.7 215.0 0.518 嵌套U形卷积神经网络U-Net++ 97.4 99.2 98.2 123.0 0.112 基于通道注意力的U形卷积神经网络CBAM-UNet 98.7 99.8 99.2 97.5 1.960 注:“↑”表明该参数值越大越好 Note: "↑" indicates that the larger the parameter value, the better. 表 3 鱼卵数量统计结果
Table 3 Results of fish eggs counting statistics
方法 Method
(计数误差△ Count Error△)实际鱼卵数量 Actual number of eggs 绝对误差百分比
APE/%↓938 1 324 3 018 3 211 4 684 5 276 6 286 基于K均值聚类的分割方法KSeg −213 −394 −805 −893 −1 154 − 1543 −1 956 27.4 质量比对法MCM +62 +176 +482 +789 +816 +1 324 + 1214 17.47 全卷积神经网络U-Net FCN −119 −202 −401 −468 −629 −863 −1 158 14.86 U形卷积神经网络U-Net −64 −110 −203 −235 −242 −409 −608 7.39 嵌套U形卷积神经网络 U-Net++ −61 −107 −208 −219 −239 −407 −599 7.23 基于通道注意力的U形卷积神经网络CAM-U-Net −59 −103 −197 −224 −234 −397 −598 7.09 基于空间注意力的U形卷积神经网络SAM-UNet −57 −98 −196 −221 −237 −398 −594 6.99 基于卷积块注意力的U形卷积神经网络CBAM-UNet −45 −87 −176 −204 −217 −376 −563 6.32 注:“↓”表明该参数值越小越好。 Note: "↓" indicates that the smaller the parameter value, the better. -
[1] 陈宏博, 佟志明, 都昆仑. 大菱鲆的海水养殖技术[J]. 农民致富之友, 2021(14): 167. doi: 10.3969/j.issn.1003-1650.2021.14.162 [2] 于冠杰. 计算机人工智能在作物病害识别与防治中的应用[J]. 分子植物育种, 2024, 22(12): 4146-4151. [3] 汤永华, 张志鹏, 林森, 等. 基于深度学习的鱼类识别相关技术研究现状及展望[J]. 海洋渔业, 2024, 46(2): 246-256. [4] LI D L, MIAO Z, PENG F, et al. Automatic counting methods in aquaculture: a review[J]. J World Aquac Soc, 2021, 52(2): 269-283. doi: 10.1111/jwas.12745
[5] 李琼, 姚遥, 杨青春, 等. 基于MATLAB图像处理的大豆颗粒检测方法研究[J]. 中国农学通报, 2018, 34(30): 20-25 [6] 司艳丽, 朱伟兴. 基于RGB-D图像的重叠颗粒物分层计数[J]. 信息技术, 2019, 43(5): 81-86 [7] 张杭文, 袁国良, 张云, 等. 基于数字图像处理的鱼卵计数的研究[J]. 电子设计工程, 2013(14): 190-193. [8] ARTHUR D E, FALKE J A, BLAIN-ROTH B J, et al. Alaskan yelloweye rockfish fecundity revealed through an automated egg count and digital imagery method[J]. N Am J Fish Manag, 2022, 42(4): 828-838. doi: 10.1002/nafm.10768
[9] 王硕, 范良忠, 刘鹰. 基于计算机视觉的大菱鲆鱼苗计数方法研究[J]. 渔业现代化, 2015, 42(1): 16-19. [10] 方志强, 肖书浩, 熊禾根, 等. 基于机器视觉及SVM的零件产品计数系统[J]. 制造业自动化, 2018, 40(7): 37-40, 48. [11] 刘腾飞, 刘威. 基于Matlab 的肿瘤细胞识别系统[J]. 电子设计工程, 2021, 29(6): 1-5. [12] 高常鑫, 徐正泽, 吴东岳, 等. 深度学习实时语义分割综述[J]. 中国图象图形学报, 2024, 29(5): 1119-1145. [13] 郭婧, 王飞. 多尺度特征融合与交叉指导的小样本语义分割[J]. 中国图象图形学报, 2024, 29(5): 1265-1276. [14] 蔡改贫, 刘占, 汪龙, 等. 基于形态学优化处理的标记符分水岭矿石图像分割[J]. 科学技术与工程, 2020, 20(23): 9497-9502. [15] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI. Berlin: Springer, 2015: 234-241.
[16] DU G T, CAO X, LIANG J M, et al. Medical image segmentation based on U-Net: a review[J]. J Imag Sci Technol, 2020, 64(2): 20508.1-20508.12. doi: 10.2352/J.ImagingSci.Technol.2020.64.2.020508
[17] 刘祥, 田敏, 梁金艳. 基于RCH-UNet的新疆密植棉花图像快速分割及产量预测[J]. 农业工程学报, 2024, 40(7): 230-239. [18] LIN D, LI Y, PRASEAD S, et al. CAM-guided multi-path decoding U-Net with triplet feature regularization for defect detection and segmentation[J]. Knowl-Based Syst, 2021, 228: 107272. doi: 10.1016/j.knosys.2021.107272
[19] ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. Unet++: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Trans Med Imag, 2019, 39(6): 1856-1867.
[20] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer, 2018: 833-851.
[21] 汪华登, 刘金, 黎兵兵, 等. 融合结构化卷积和双重注意力机制的轻量级眼底图像分割网络[J]. 计算机辅助设计与图形学学报, 2024, 36(5): 1-16. [22] VASWANI A, SHAZEER N, PARMAR, et al. Attention is all you need[C]//Advances in Neural information Processing Systems (NIPS). Cambridge: MIT Press, 2017: 6000-6010.
[23] CHEN B L, HUANG Y, XIA Q Q, et al. Nonlocal spatial attention module for image classification[J]. Inter J Adv Robotic Syst, 2020, 17(5): 1-10.
[24] HU J, SHEN L, ALBANIE S, et al, Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 7132-7141.
[25] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer, 2018: 3-19.
[26] EVERINGHAM M, ESLAMI S M A, van GOOL L, et al. The pascal visual object classes challenge: a retrospective[J]. Int J Comput Vision, 2015, 111: 98-136. doi: 10.1007/s11263-014-0733-5
[27] ADADI M, AGARWAL A, BARHAM P, et al. Tensorflow: large-scale machine learning on heterogeneous distributed systems[J]. arXiv e-prints, 2016: arXiv: 1603.04467.
[28] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer, 2018: 801-818.
[29] DICE L R. Measures of the amount of ecologic association between species[J]. Ecology, 1945, 26(3): 297-302. doi: 10.2307/1932409
[30] CHEN J, KAO S H, HE H, et al. Run, don't walk: chasing higher FLOPS for faster neural networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver. Piscataway, NJ: IEEE, 2023: 12021-12031.
[31] HYNDMAN R J, ATHANASOPOULOS G. Forecasting: principles and practice[M]. Melbourne: OTexts, 2014: 46-52.
[32] LI Q G, ZHENG H Z, CUI T W, et al. Identification and location method of strip ingot for autonomous robot system using kmeans clustering and color segmentation[J]. IET Control Theory A, 2023, 17(16): 2124-2135. doi: 10.1049/cth2.12481
[33] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA. Piscataway, NJ: IEEE, 2015: 3431-3440.