基于多阶段特征提取的鱼类识别研究

吕俊霖, 陈作志, 李碧龙, 蔡润基, 高月芳

吕俊霖, 陈作志, 李碧龙, 蔡润基, 高月芳. 基于多阶段特征提取的鱼类识别研究[J]. 南方水产科学, 2024, 20(1): 99-109. DOI: 10.12131/20230197
引用本文: 吕俊霖, 陈作志, 李碧龙, 蔡润基, 高月芳. 基于多阶段特征提取的鱼类识别研究[J]. 南方水产科学, 2024, 20(1): 99-109. DOI: 10.12131/20230197
LYU Junlin, CHEN Zuozhi, LI Bilong, CAI Runji, GAO Yuefang. Research on fish recognition based on multi-stage feature extraction learning[J]. South China Fisheries Science, 2024, 20(1): 99-109. DOI: 10.12131/20230197
Citation: LYU Junlin, CHEN Zuozhi, LI Bilong, CAI Runji, GAO Yuefang. Research on fish recognition based on multi-stage feature extraction learning[J]. South China Fisheries Science, 2024, 20(1): 99-109. DOI: 10.12131/20230197

基于多阶段特征提取的鱼类识别研究

基金项目: 农业农村部财政专项 (NFZX2023);广东省重点领域研发计划项目 (2020B1111030002)
详细信息
    作者简介:

    吕俊霖 (1977—),男,副研究员,硕士,研究方向为渔业信息化、鱼类智能识别。E-mail: lvjunlin@scsfri.ac.cn

  • 中图分类号: TP 18; TP 391.41; S 951.2

Research on fish recognition based on multi-stage feature extraction learning

  • 摘要:

    鱼类自动识别在海洋生态学、水产养殖等领域应用广泛。受光照变化、目标相似、遮挡及类别分布不均衡等因素影响,鱼类精准自动识别极具挑战性。提出了一种基于多阶段特征提取网络 (Multi-stage Feature Extraction Network, MF-Net) 模型进行鱼类识别。该模型首先对图片作弱增强预处理,以提高模型的计算效率;然后采用多阶段卷积特征提取策略,提升模型对鱼类细粒度特征的提取能力;最后通过标签平滑损失计算以缓解数据的不平衡性。为验证模型的性能,构建了一个500类、含32 768张图片的鱼类数据集,所建模型在该数据集上的准确率达到86.8%,优于现有的主流目标识别方法。利用公开的蝴蝶数据集对该模型进行泛化性能验证,多组消融实验进一步验证了所提算法的有效性。

    Abstract:

    Automatic fish recognition is widely used in the fields of marine ecology and aquaculture. Due to factors such as fluctuating illumination, overlapping instances and occlusion, accurate automatic identification of fish is extremely challenging. In order to solve these problems, this paper introduces an innovative Multi-stage Feature Extraction Network (MF-Net) model, which is predicated upon a multi-stage feature extraction paradigm for the domain of automatic fish recognition. The architecture of MF-Net commences with a subtle image enhancement preprocessing step, judiciously designed to augment the computational efficiency of the model. Then the deployment of a multi-stage convolutional feature extraction strategy is applied to improve the model's sensitivity towards the granular features of fish species. In an effort to mitigate issues arising from data imbalance, the model incorporates a long-tail loss computation strategy. To evaluate the efficacy of the proposed MF-Net, the study collects a comprehensive fish dataset encompassing 500 categories including 32 768 images. The proposed MF-Net demonstrated a remarkable accuracy of 86.8% on this dataset, thereby outperforming the recognition performance of the existing state-of-the-art target recognition algorithms. Furthermore, the model is tested on a publicly butterfly dataset to verify its generalization performance, and multiple ablation experiments further validate the effectiveness of the proposed algorithm.

  • 鱼类自动识别是渔业智能化的重要一环,在海洋生态学[1]、行为分析[2]、水产养殖管理[3]、健康监测[4]等领域应用广泛。鱼类由于种类多,体型大小不一,姿态多样,不同品种鱼类的外形、色彩、纹理及尺寸等相似,且数据采集中存在姿态、视角、光照、遮挡、背景干扰等因素,导致出现同种鱼类样本间差异大、不同种类之间相似性高等问题,识别难度大。而人工鉴别又耗时耗力,且高度依赖专家的经验和技能。准确识别鱼类,对于物种多样性保护和渔业可持续管理至关重要。传统的鱼类自动识别研究采用人工设计的特征对鱼类表观进行特征表达,这类特征针对性强,可靠性高,特定场景效果好;但特征表达能力有限,较难捕获高级语义特征和复杂内容,导致其泛化能力和鲁棒性差,难以应用于实际中的复杂环境。

    随着深度学习技术在人脸、指纹等目标识别任务中的成功应用[5-6],近年来,卷积神经网络(Convolutional Neural Network, CNN) 在水产物种自动识别中应用越来越广泛,并取得了较好的识别效果[7-11]。Zhuang等[7]设计了一种多模态网络模型,利用成对文本描述来区分高度相似的鱼类;李均鹏等[12]提出了一种基于迁移学习的海洋鱼类识别方法,该方法通过迁移学习和模型融合的有效结合提升模型的鲁棒性和泛化性。针对鱼类不同的局部特征可刻画其类别,姚润璐等[13]对鱼类图像进行分割,获取鱼背、鱼尾等部位,提取其形态和纹理等精细特征,并结合反向传播神经网络进行识别;Christensen等[14]开发了一种Lightfish网络模型,用于水下恶劣条件下的鱼类识别和分类。此外,针对复杂水下环境采集的数据分辨率低的情况,Pramunendar等[15]提出了一种基于反向传播神经网络的图像增强模型,通过选择合适的插值方法和网络配置提升图像的分辨率,进而提高鱼类识别的精度。

    在自然界中,鱼类物种遵循长尾分布,即少部分鱼类占大数据样本,而多数鱼类却仅有少量样本,导致收集的数据集中类别分布不均衡。由于头部类别的样本量远大于尾部,易导致模型在头部类别 (多样本类别) 过拟合、尾部类别 (少样本类别) 欠拟合,进而影响总体的识别性能。为缓解长尾分布带来的识别性能下降,目前的主要解决策略是重采样[16]和重加权[17-19]。Zhou等[20]提出了一个统一的双边分支网络 (BBN),同时进行表征学习和分类学习,在此基础上设计了一种累积学习策略,使网络首先学习通用模式,然后逐渐加权尾部数据,提升识别性能。Wang等[21]研发了一种基于学习平衡和鲁棒特征的长尾识别框架,通过构建注意特征增强模块,挖掘原始样本的类相关和变异相关特征,并对其进行聚合合成,以缓解原始数据集的类别不平衡。Pang等[22]构建了一个分层块聚合网络,以促进不同的即插即用策略的相互学习,同时设计了一个数量感知平衡损失和解耦训练策略对其优化,增强网络的特征提取能力,进而提升长尾目标的识别性能。不过,上述方法多是通过牺牲头部识别性能以换取尾部识别性能的提升,总体性能虽得以提升,但由于缺少与重要特征结合进行识别,尾部类别识别的过拟合问题仍有待解决。

    针对上述问题,本研究提出了一种基于多阶段特征提取的深度网络 (Multi-stage Feature Extraction Network, MF-Net) 模型进行鱼类识别,该模型首先使用预处理模块对图片进行预处理,然后构建多阶段特征提取模块,以学习到具有鲁棒细粒度表达能力和判别性能的高级特征,在此基础上,使用一个标签平滑损失函数以缓解鱼类类别不平衡问题。为验证该模型的有效性,构建了一个包含500个类别的鱼类数据集进行实验对比和消融分析,并利用公开的蝴蝶数据集进行实验对比分析。

    通过渔业调查项目、网络爬虫技术等收集开放环境下 (如不同地域、季节、天气等) 各种姿态的鱼类图片数据,对其进行清洗、检测、专家鉴定等处理后构建鱼类数据集。该数据集包含500种淡水和海洋鱼类,共32 768张图片。其中,每类样本量多于200张图片的鱼类有4种,低于15张图片的有10种,数据集存在类别分布不均衡。如图1所示,该数据集的特点如下:

    图  1  原始鱼类数据集特点
    Fig. 1  Characteristics of raw fish data

    1) 鱼目标与背景相似:复杂多变的开放环境使得部分鱼类拥有环境保护色;此外,部分鱼类存在纹理与背景高度重叠及严重遮挡等情况。

    2) 光线变化大:因水下环境光照条件差、亮度分布不均及光散射等原因,导致鱼类图片的颜色和纹理等存在失真情况。

    3) 姿态各异:因拍摄角度不同,获取的鱼类图像有多种不同的视角,导致同一类别鱼类存在较大的表观差异。

    4) 图像存在多目标:鱼类群体活动导致采集的鱼类数据存在多个目标。这些数据特性会降低识别精度,给鱼类自动识别带来极大挑战。此外,不同种类的鱼在形状、纹理、颜色等多种外观存在较高的相似性 (图2),进一步增加了识别难度。

    图  2  类间相似和类内差异
    Fig. 2  Subtle differences between species and dramatic changes among same species

    MF-Net识别模型主要包括预处理模块、多阶段特征提取模块和标签平滑损失函数3个部分(图3)。预处理模块对输入的鱼类图像通过卷积层和层归一化处理,将其映射到高维空间,以便后续模型获取图像丰富的判别特征;多阶段特征提取模块由多个MF-Net block和下采样层构成,每一个特征提取块由影子卷积模块Ghost Module[23]、批量归一化、深度卷积、压缩和激励 (Squeeze and excitation, SE) 注意力机制、GELU (Gaussian error linear units)激活函数和路径丢失Droppath构成。该模块通过对特征图的内在规律进行学习,进而从预处理后的特征图中学习到具有判别性的局部和全局特征。在训练过程中采用标签平滑损失函数对模型参数进行修正学习,以缓解数据类别的不平衡,提升模型的识别性能。

    图  3  MF-Net模型结构
    Fig. 3  Structure of MF-Net

    预处理模块采用卷积核大小为4×4、输出通道为96、步长为4的卷积层和层归一化的组合,将输入的图像数据映射至高维空间(图4)。在高维空间中,深度学习模型可以关注图像数据中的重要特征信息,并可捕捉特征之间复杂的非线性关系。

    图  4  预处理模块
    Fig. 4  Pre-processing module

    图5所示,在第一层残差结构中,输入的特征图首先经过影子卷积模块 Ghost Module,将提取的特征图传入到卷积核大小为 $ 3\times 3 $、步长为1、填充为1的深度卷积结构中,并对其批量归一化。在此基础上,通过SE注意力机制对通道特征进行加权,后将特征图输入第二个Ghost Module,使用路径丢失Droppath以一个固定的概率对该路径进行随机失活,以提升模型的泛化能力,然后与捷径分支的输出相加,并将结果传入第二个残差结构。当输入与输出特征图的尺寸不匹配时,可通过深度可分离卷积对输入的特征图进行维度调整。

    图  5  MF-Net block结构
    Fig. 5  Structure of MF-Net block

    第二层残差结构由2个Ghost Module及GELU激活函数组成,输入特征图在经过第一个Ghost Module后,其输出特征图经过高斯误差线性单元激活函数的激活后,传入第二个Ghost Module,并使用Droppath对该路径按一定的概率进行丢弃,然后与捷径分支的输出相加,并将该结果作为输出。在这一个残差结构中,输入、输出特征图的维度相等,捷径分支上的输出即为第一层残差结构的输出。

    第一层残差结构主要对鱼类的一些浅层特征进行提取,并通过SE注意力机制对特征图加权,使得MF-Net模型更加关注图片中目标的关键特征。第二层残差结构主要是将第一层残差结构提取的浅层特征图映射到更高的维度,进一步提取到鱼类更加丰富的特征。

    此外,MF-Net模型中,在各个阶段之间添加1个独立的下采样层。下采样层由池化核为 $ 2\times 2 $、池化步长为2的最大池化层构成,这样可在降低特征图的空间维度、减少网络中的参数数量及提高模型计算效率的同时保留特征图中的重要信息。此外,该下采样设计还可为网络引入了一定程度的平移不变性。

    参考Szeged等[24]的方法,本研究在训练过程中使用标签平滑损失函数对模型参数进行调整,以缓解数据分布不平衡带来的影响,其公式为:

    $$ H({p}{\minifont{\text{'}}},q){\text{=}}{\text{−}}\sum _{i=1}^{n}{p}{\minifont{\text{'}}}\left({x}_{i}\right)\mathrm{log}\left[q\left({x}_{i}\right)\right]=\left(1{\text{−}}\epsilon \right)H(p,q){\text{+}}\epsilon H(u,q) $$ (1)

    式中:$ H\left(p,q\right) $ 和 H(u,q) 均表示交叉熵损失函数,用于度量两个概率分布之间的差异性;n 表示类别个数;$ p\left({x}_{i}\right) $ 表示样本 $ {x}_{i} $ 的真实分布,$ {p}{{{\text{'}}}}\left({x}_{i}\right) $ 表示样本平滑后的分布;$ q\left({x}_{i}\right) $ 表示模型所预测的概率分布;u为人为引入的均匀分布;$\epsilon $ 表示标签平滑的系数,为超参数,$\epsilon $ $ \in \left(\mathrm{0,1}\right) $。

    基于上述损失函数对模型进行训练。具体步骤如下:

    1) 模型初始化:使用凯明均匀分布算法初始化除网络层外的所有卷积层的权值系数,使其均值为 0;使用正态分布算法初始化全连接层的权值系数,使其符合均值为0、方差为1的正态分布。

    2) 模型训练:将训练集传入MF-Net 中进行特征学习,并将经 Softmax 函数计算后得到的预测标签与真实标签使用标签平滑 (Label smoothing)损失函数计算网络模型的损失值。使用反向传播算法对 MF-Net 的权值系数进行更新,使损失函数值不断地向全局最小进行逼近。

    3) 模型测试:训练后的 MF-Net 在测试集进行测试,并输出在测试集的识别准确率。

    4) 模型保存:将较优的模型权值系数保存到本地后,进行下一次的模型训练。

    MF-Net模型训练的思路是:对输入的批量图像数据有 $ X\in {R}^{N\times C\times H\times W}$,其中:N为输入的样本批量数;C为输入图像的通道数;H为输入图像的高;W为输入图像的宽。

    输入的图像经预处理模块,得到维度大小为$ {X}{{{\text{'}}}}\in {R}^{N\times {C}{{{\text{'}}}}\times \frac{H}{4}\times \frac{W}{4}} $ 的特征图;然后使用多个特征提取块组成的4个阶段对图像的特征进行学习,每个阶段中包含的特征提取块个数为3、3、8、3,在此基础上,在每个特征的提取阶段之间使用下采样模块对特征图进行下采样操作,每经过一个下采样模块,输出特征图的高与宽均减少为输入特征图的一半,最后输出特征图的维度大小为 $ {X}{{{\text{'}}}}\in {R}^{N\times {C}{{{\text{'}}}}{{{\text{'}}}}\times \frac{H}{32}\times \frac{W}{32}} $。将特征图传入池化滤波器的大小为 $ \dfrac{H}{32}\times \dfrac{W}{32} $ 的平均池化层进行全局池化,并使用层归一化LayerNorm对池化后的特征图进行正则化运算,其输出特征图的维度为 ${X}{{{\text{'}}}}\in {R}^{N\times {C}{{{\text{'}}}}{{{\text{'}}}}\times 1 \times 1}$。最后将特征图传入全连接层,即可输出模型的预测分类结果。

    为验证模型性能,以MF-Net在测试集的第一准确率Acc-1和前五准确率Acc-5作为本网络模型的评价标准。Acc-1指模型输出的概率最大的预测标签与真实标签相符的准确率;Acc-5指模型输出概率前五的预测标签中包含真实标签的准确率。计算公式为:

    $$ A{\text{=}}\frac{\mathrm{T}\mathrm{P}{\text{+}}\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{P}{\text{+}}\mathrm{T}\mathrm{N}{\text{+}}\mathrm{F}\mathrm{P}{\text{+}}\mathrm{F}\mathrm{N}} $$ (2)

    式中:A为准确率;TP为真实的正样本数量;TN为真实的负样本数量;FP为虚假的正样本数量;FN为虚假的负样本数量。

    为了进一步比较模型之间的性能,引入精确率、召回率、F1-score这3个评价指标。

    精确率 (Precision, P) 的公式为:

    $$ {P}_{k}{\text{=}}\frac{{\mathrm{T}\mathrm{P}}_{k}}{{\mathrm{T}\mathrm{P}}_{k}{\text{+}}{\mathrm{F}\mathrm{P}}_{k}} $$ (3)
    $$ P{\text{=}}\frac{1}{n}\sum _{k}^{n}{P}_{k} $$ (4)

    式中:TPk 表示第k个类别的真实正样本数量;FPk表示第k个类别的虚假正样本数量;n 表示类别个数;通过计算出每个类别的精确率,再对其取平均值获得多分类的精确率。

    召回率 (Recall, R) 的公式为:

    $$ {R}_{k}{\text{=}}\frac{{\mathrm{T}\mathrm{P}}_{k}}{{\mathrm{T}\mathrm{P}}_{k}{\text{+}}{\mathrm{F}\mathrm{N}}_{k}} $$ (5)
    $$ R{\text{=}}\frac{1}{n}\sum _{k}^{n}{R}_{k} $$ (6)

    其中,FNk表示第k个类别的虚假负样本数量;先计算出每个类别的召回率,再对其取平均获得多分类的召回率。

    F1-score的公式为:

    $$ {F}_{1{\text{-}}\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}}{\text{=}}\frac{1}{n}\sum _{k}^{n}\frac{2 \cdot {P}_{k}\cdot {R}_{k}}{{P}_{k}{\text{+}}{R}_{k}} $$ (7)

    通过公式(3) — (7) 计算最终的F1-score,F1-score是精确率和召回率的调和平均数。

    为比较各模型的性能,进一步引入模型的浮点运算次数 (FLOPs)、参数量 (Params) 和延迟(Latency)。浮点运算次数是网络模型复杂度的衡量指标,也是网络模型速度的衡量标准。参数量为在模型进行训练时所需训练的参数总数。网络模型预测一张图片所需的时间,即为延迟。

    本实验的环境为:64位的Ubuntu 18.04操作系统,图形处理器(Graphics Processing Unit,GPU)型号为NVIDIA GeForce GTX 1080 Ti,中央处理器 (Central Processing Unit, CPU)的型号为Intel(R) Core i7-6700 CPU @3.40 GHz,集成开发环境为 PyCharm2021.3.2 + anaconda3.0,采用Pytorch1.12.1作为深度学习框架构建与部署网络模型,并使用CUDA版本并行并行计算框架。

    模型迭代次数设置为180,批处理量为32。相对平滑损失函数中的平滑参数设置为0.1。训练时优化器选择AdamW优化器,优化器的学习率变化中的最大参数设置为0.004,权重衰减系数的参数设置为0.05,一阶矩动量的指数衰减速率设置为0.9,二阶矩动量的指数衰减速率设置为0.999。其余的参数均为默认值。

    此外,在网络模型训练时,学习率的动态变化分为两个阶段。第一阶段使用Warm-up策略[25]调整学习率的变化,初始学习率为0,最大学习率为0.004,Warm-up策略的epoch数为12;第二阶段使用余弦退火算法对学习率进行调整,初始学习率为0.004,最小学习率为0.000 001,余弦退火算法[26]的最大epoch数为168。

    为验证该MF-Net模型的识别性能,基于构建的鱼类数据集,将其与主流的通用目标识别方法ResNet-50[5]、GhostNet[23]和ConvNext[27]进行实验对比分析。基线为ResNet-50,其损失函数为交叉熵损失函数,ResNet-50 (标签平滑)表示模型采用的损失函数为标签平滑损失函数,所有模型均采用在ImageNet的预训练参数,并使用默认参数与设置,结果见表1

    表  1  主流识别模型性能对比
    Table  1  Comparison of different generic recognition methods
    模型
    Model
    浮点运算次数
    Floating point operations per second/G
    参数量
    Parameter quantity/M
    Acc-1准确率
    Acc-1 accuracy/%
    召回率
    Recall/%
    精确率
    Precision/%
    F1分数
    F1-score
    ResNet-504.13025.6082.6072.9778.090.724
    ResNet-50 (标签平滑
    Label smoothing)
    4.13025.6085.1076.4580.270.761
    GhostNet0.1565.1883.3175.2178.850.746
    ConvNext15.40087.5084.2776.2079.620.759
    MF-Net1.74010.4086.8078.3781.800.781
    下载: 导出CSV 
    | 显示表格

    表1可以看出,MF-Net模型的识别效果最好 (86.80%),其Acc-1准确率比ResNet-50、GhostNet、ConvNext和ResNet-50 (标签平滑) 分别高出4.2%、3.49%、2.53%和1.7%。主要原因在于MF-Net的多阶段特征提取可以获得更好的特征表达。另外,在浮点运算、参数量、精度、召回率及F1-score等方面,该模型均优于ResNet-50和ConvNext模型,进一步表明MF-Net模型的有效性。

    为验证MF-Net模型的细粒度特征提取和识别能力,在公开的长尾蝴蝶数据集[28]中进行实验对比,其中58 066张图像为训练集,14 086张图像为测试集。基于该数据集,将所提出的MF-Net模型与双通路瀑布式 (Dual Route Cassaded, DRC) 模型、BBN长尾模型和主流通用目标识别模型进行性能对比,参照公开数据集的设定,头部类别定义为含有大于等于100张图片样本,尾部类别定义为含有小于等于30张图片样本,并统计头部类别和尾部类别的平均精度,实验结果见表2。可以看出,DRC和BBN由于出现得较早,总体识别精度比常规模型低,但头部和尾部类别的识别性能较常规模型有所提升。MF-Net模型在Acc-1和头尾部类别的准确率上均为最优,表明MF-Net模型不仅可提升长尾数据整体识别性能,同时也可提升头部和尾部的识别性能。

    表  2  蝴蝶数据集下不同长尾模型识别性能
    Table  2  Comparison of accuracy with different long-tailed methods on butterfly dataset
    模型
    Model
    Acc-1 准确率
    Acc-1 accuracy/%
    头部类别精度
    Many-shot/%
    尾部类别精度
    Few-shot/%
    DRC80.9087.2769.03
    BBN82.2088.0268.97
    ResNet-5080.9086.0966.66
    GhostNet82.2086.5568.33
    ConvNext82.7086.5868.09
    MF-Net83.8089.4072.55
    下载: 导出CSV 
    | 显示表格

    为验证该MF-Net模型对长尾数据的识别能力,选择有代表性的长尾识别模型BBN和DRC[17]在鱼类数据集上进行识别实验,结果见表3。在识别精度方面,MF-Net模型的性能最优,Acc-1准确率为86.8%,较BBN和DRC模型分别高出2.43%和3.21%。主要原因是BBN和DRC模型对长尾数据中头部类数据的识别性能较弱,进而对整个数据集的识别准确率产生影响,而MF-Net模型由于多阶段提取局部和全局特征,可以在保证头部数据性能的同时,进一步提升尾部数据的识别性能,从而提升了整体性能。

    表  3  鱼类数据集下不同长尾识别模型对比
    Table  3  Comparison of different long-tailed methods on fish dataset
    模型
    Model
    Acc-1准确率
    Acc-1 accuracy/%
    头部类别精度
    Many-shot/%
    尾部类别性能
    Few-shot/%
    BBN84.3789.4372.55
    DRC83.5988.7369.80
    MF-Net86.8090.1776.53
    下载: 导出CSV 
    | 显示表格

    为进一步验证本研究MF-Net模型中各模块的有效性,基于鱼类数据集,设置了以下5个消融实验进行对比分析。

    不同的预处理模块对模型性能影响有差异。对MF-Net模型,使用不同预处理模块进行消融实验:第一组通过卷积层、批量归一化、ReLU激活函数及最大池化的组合完成对图像数据预处理操作;第二组对图像数据中采用的卷积层、批量归一化、ReLU激活函数的组合完成预处理操作;第三组使用卷积层、层归一化的组合对图像数据进行预处理操作。鱼类识别结果如图6所示。可以看出,卷积层和层归一化的组合可更有效提升模型的性能。

    图  6  MF-Net模型不同预处理方式的识别结果
    Fig. 6  Recognition results based on different pro-processing strategies in proposed MF-Net

    block结构是网络模型的重要组成部件,在此设计不同的block结构以验证所提结构的有效性。其中,Gbneck为GhostNet模型的block结构,ResNet-Bottleneck 为ResNet模型的模块结构,MF-Net block (first residual)为MF-Net网络中的第一层残差结构,MF-Net block为本研究算法所采用的结构,结果如图7所示。

    图  7  MF-Net 模型不同block结构的识别性能
    Fig. 7  Recognition results based on different block structures in proposed MF-Net

    结果显示,不同的block结构对最终鱼类识别的效果影响显著,如在主干网络中采用MF-Net block (First residual) 结构,其Acc-1准确率仅61.80%,与Gbneck结构和MF-Net block结构相比,分别低23.3%和25.0%。这是因为不同的block层主要进行特征提取,结构不同提取的特征也不同。此外,MF-Net block结构的识别性能最佳 (86.80%),说明多阶段提取结构可以更好地捕获到鱼类更具判别性的细粒度局部特征和全局特征。

    为验证该MF-Net模型中下采样的有效性,设计不同的下采样方式进行分析,结果如图8所示。可以看出,模型使用下采样策略时,其识别性能明显高于无下采样的情形,在鱼类识别Acc-1准确率上,独立设置下采样结构的MF-Net高于未设置下采样结构的1.4%,而使用最大池化采样的MF-Net模型识别性能最佳,表明下采样在降低特征图空间维度的同时还可保留特征的重要信息。

    图  8  MF-Net模型中不同下采样策略
    Fig. 8  Recognition results based on different down sampling strategies in proposed MF-Net

    在网络训练中,损失函数指导模型的参数更新,进而影响模型的性能。为验证该MF-Net模型损失函数的有效性,采用不同的损失函数进行实验对比分析,其Acc-1和Acc-5的实验结果见图9。可以看出,无论是Acc-1还是Acc-5的准确率,均为基于标签平滑损失函数的识别性能最佳,分别为86.80%和95.90%,分别高于交叉熵损失函数、加权交叉熵损失函数和焦点损失函数2%、2.3%、2.5%和0.2%、0.9%、0.4%,表明标签平滑损失函数可有效缓解数据分布不平衡问题,从而提升鱼类识别性能。

    图  9  基于不同损失函数的识别性能
    Fig. 9  Recognition results based on different loss functions in proposed MF-Net

    为验证该MF-Net模型损失函数对长尾分布数据集的有效性,从本研究构造的鱼类数据集中选出50个类别,每类50~90张样本数据构造一个平衡数据集。在平衡数据集上与交叉熵损失函数进行实验对比分析,结果见表4。可以看出,在其他设置相同的条件下,采用改动损失函数进行实验对比,可以看到在分布均衡的数据集上,尽管识别精度相对不平衡的数据集有一定提升,但标签平滑损失函数与交叉熵精度接近,这表明平衡的数据集交叉熵和标签平滑损失函数分类效果接近。此外,由于识别精度达到90以上,因此召回率和F1-score与Acc-1准确率更加接近。

    表  4  平衡鱼类数据集下不同识别模型损失对比
    Table  4  Comparison of different recognition methods with different losses in balanced fish dataset
    模型
    Model
    浮点运算次数
    Floating point operations per second/G
    参数量
    Parameter quantity/M
    Acc-1准确率
    Acc-1 accuracy/%
    召回率
    Recall/%
    F1分数
    F1-score
    ResNet-50 (交叉熵 Cross entropy) 4.130 25.60 90.32 90.04 0.892
    ConvNext (交叉熵Cross entropy) 15.400 87.50 91.85 90.07 0.901
    GhostNet (交叉熵Cross entropy) 0.156 5.18 91.34 90.37 0.905
    MF-Net (交叉熵Cross entropy) 1.740 10.40 94.50 94.19 0.943
    ResNet-50 4.130 25.60 89.80 88.87 0.889
    ConvNext 15.400 87.50 92.50 92.24 0.925
    GhostNet 0.156 5.18 92.25 92.16 0.923
    MF-Net 1.740 10.40 94.05 93.73 0.937
    下载: 导出CSV 
    | 显示表格

    本研究提出了一个多阶段特征提取模型MF-Net,用于开放复杂环境下的鱼类识别。该方法使用了一个预处理模块以提升计算效率,并通过构建的多阶段特征提取模块,以学习识别目标中具有判别性的局部特征和全局特征。在此基础上,采用标签平滑损失函数以降低数据类别分布不均衡带来的影响,从而增强模型的识别性能。实验结果表明,该模型在本研究所提出的鱼类数据集和公开的蝴蝶数据集上均获得了较好的识别效果。在未来工作中,拟在增加鱼类类别的基础上,构建新的主干网络结构,探索细粒度特征学习、损失函数设计与类别分布不均衡之间的关联,进一步提升鱼类的识别精度。

  • 图  1   原始鱼类数据集特点

    Figure  1.   Characteristics of raw fish data

    图  2   类间相似和类内差异

    Figure  2.   Subtle differences between species and dramatic changes among same species

    图  3   MF-Net模型结构

    Figure  3.   Structure of MF-Net

    图  4   预处理模块

    Figure  4.   Pre-processing module

    图  5   MF-Net block结构

    Figure  5.   Structure of MF-Net block

    图  6   MF-Net模型不同预处理方式的识别结果

    Figure  6.   Recognition results based on different pro-processing strategies in proposed MF-Net

    图  7   MF-Net 模型不同block结构的识别性能

    Figure  7.   Recognition results based on different block structures in proposed MF-Net

    图  8   MF-Net模型中不同下采样策略

    Figure  8.   Recognition results based on different down sampling strategies in proposed MF-Net

    图  9   基于不同损失函数的识别性能

    Figure  9.   Recognition results based on different loss functions in proposed MF-Net

    表  1   主流识别模型性能对比

    Table  1   Comparison of different generic recognition methods

    模型
    Model
    浮点运算次数
    Floating point operations per second/G
    参数量
    Parameter quantity/M
    Acc-1准确率
    Acc-1 accuracy/%
    召回率
    Recall/%
    精确率
    Precision/%
    F1分数
    F1-score
    ResNet-504.13025.6082.6072.9778.090.724
    ResNet-50 (标签平滑
    Label smoothing)
    4.13025.6085.1076.4580.270.761
    GhostNet0.1565.1883.3175.2178.850.746
    ConvNext15.40087.5084.2776.2079.620.759
    MF-Net1.74010.4086.8078.3781.800.781
    下载: 导出CSV

    表  2   蝴蝶数据集下不同长尾模型识别性能

    Table  2   Comparison of accuracy with different long-tailed methods on butterfly dataset

    模型
    Model
    Acc-1 准确率
    Acc-1 accuracy/%
    头部类别精度
    Many-shot/%
    尾部类别精度
    Few-shot/%
    DRC80.9087.2769.03
    BBN82.2088.0268.97
    ResNet-5080.9086.0966.66
    GhostNet82.2086.5568.33
    ConvNext82.7086.5868.09
    MF-Net83.8089.4072.55
    下载: 导出CSV

    表  3   鱼类数据集下不同长尾识别模型对比

    Table  3   Comparison of different long-tailed methods on fish dataset

    模型
    Model
    Acc-1准确率
    Acc-1 accuracy/%
    头部类别精度
    Many-shot/%
    尾部类别性能
    Few-shot/%
    BBN84.3789.4372.55
    DRC83.5988.7369.80
    MF-Net86.8090.1776.53
    下载: 导出CSV

    表  4   平衡鱼类数据集下不同识别模型损失对比

    Table  4   Comparison of different recognition methods with different losses in balanced fish dataset

    模型
    Model
    浮点运算次数
    Floating point operations per second/G
    参数量
    Parameter quantity/M
    Acc-1准确率
    Acc-1 accuracy/%
    召回率
    Recall/%
    F1分数
    F1-score
    ResNet-50 (交叉熵 Cross entropy) 4.130 25.60 90.32 90.04 0.892
    ConvNext (交叉熵Cross entropy) 15.400 87.50 91.85 90.07 0.901
    GhostNet (交叉熵Cross entropy) 0.156 5.18 91.34 90.37 0.905
    MF-Net (交叉熵Cross entropy) 1.740 10.40 94.50 94.19 0.943
    ResNet-50 4.130 25.60 89.80 88.87 0.889
    ConvNext 15.400 87.50 92.50 92.24 0.925
    GhostNet 0.156 5.18 92.25 92.16 0.923
    MF-Net 1.740 10.40 94.05 93.73 0.937
    下载: 导出CSV
  • [1]

    PRIMO A L. Ecology of marine fish larvae[M]//WALTER L F, ANABELA M A, LUCIANA B, et al. Encyclopedia of the UN sustainable development goals, life below water. New York: Springer Nature, 2021: 1-10.

    [2]

    LI D L, WANG Z H, WU S Y, et al. Automatic recognition methods of fish feeding behavior in aquaculture: a review[J]. Aquaculture, 2020, 528: 735508. doi: 10.1016/j.aquaculture.2020.735508

    [3] 麦广铭, 陈志劼, 王学锋, 等. 南海北部沿岸鱼类分类学多样性的空间格局[J]. 南方水产科学, 2022, 18(3): 38-47. doi: 10.12131/20210117
    [4]

    CHEN W H, LIU J Y, ZHANG Y P, et al. Current status and accics of research on smart fishery in China: a literature review based on CNKI (2000−2022)[J]. Int J Environ Sustain Protect, 2023, 2(4): 24-32.

    [5]

    HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016: 770-778. DOI: 10.1109/CVPR.2016.90.

    [6]

    LIU Z, LI Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted Windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021: n9992-10002. DOI: 10.1109/ICCV48922.2021.00986.

    [7]

    ZHUANG P Q, WANG Y L, QIAO Y. Wildfish++: a comprehensive fish benchmark for multimedia research[J]. IEEE T Multimedia, 2021, 23: 3603-3617. doi: 10.1109/TMM.2020.3028482

    [8]

    LIU Z H, JIA X J, XU X S. Study of shrimp recognition methods using smart networks[J]. Comput Electron Agric, 2019, 165: 104926. doi: 10.1016/j.compag.2019.104926

    [9] 汪小旵, 武尧, 肖茂华, 等. 水产养殖中智能识别技术的研究进展[J]. 华南农业大学学报, 2023, 44(1): 24-33. doi: 10.7671/j.issn.1001-411X.202204013
    [10]

    YANG X T, ZHANG S, LIU J T, et al. Deep learning for smart fish farming: applications, opportunities and challenges[J]. Rev Aquac, 2021, 13(1): 66-90. doi: 10.1111/raq.12464

    [11]

    RUM S N M, NAWAWI F A Z. FishDeTec: a fish identification application using image recognition approach[J]. Int J Adv Comp Sci Appl, 2021, 12. DOI: 10.14569/IJACSA.2021.0120312.

    [12] 李均鹏, 祝开艳, 杨澍. 基于迁移学习的复杂场景海洋鱼类识别方法[J]. 计算机应用与软件, 2019, 36(9): 168-174. doi: 10.3969/j.issn.1000-386x.2019.09.030
    [13] 姚润璐, 桂詠雯, 黄秋桂. 基于机器视觉的淡水鱼品种识别[J]. 微型机与应用, 2017, 36(24): 37-39.
    [14]

    CHRISTENSEN J H, MOGENSEN L V, GALEAZZI R, et al. Detection, localization and classification of fish and fish species in poor conditions using convolutional neural networks[C]. 2018 IEEE/OES Autonomous Underwater Vehicle Workshop (AUV), Porto, Portugal, 2018: 1-6. DOI: 10.1109/AUV.2018.8729798.

    [15]

    PRAMUNENDAR R A, WIBIRAMA S, SANTOSA P I. Fish classification based on underwater image interpolation and back-propagation neural network[C] 2019 5th International Conference on Science and Technology (ICST), Yogyakarta, Indonesia, 2019: 1-6.

    [16]

    POUYANFAR S, TAO Y D, MOHAN A, et al. Dynamic sampling in convolutional neural networks for imbalanced data classification[C]//2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR), Miami, FL, USA, 2018: 112-117. DOI: 10.1109/MIPR.2018.00027.

    [17]

    KANG B Y, XIE S N, ROHRBACH M, et al. Decoupling representation and classifier for long-tailed recognition[J]. arXiv, 2020: 1910.09217v2. DOI: 10.48550/arXiv.1910.09217.

    [18]

    ZHANG S Y, LI Z M, YAN S P, et al. Distribution alignment: a unified framework for long-tail visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021: 2361-2370. DOI: 10.1109/CVPR46437.2021.00239.

    [19]

    CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples[C/OL]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 9268-9277. [2023-11-10]. https://openaccess.thecvf.com/content_CVPR_2019/papers/Cui_Class-Balanced_Loss_Based_on_Effective_Number_of_Samples_CVPR_2019_paper.pdf.

    [20]

    ZHOU B Y, CUI Q, WEI X S, et al. BBN: Bilateral-branch network with cumulative learning for long-tailed visual recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020: 9716-9725. DOI: 10.1109/CVPR42600.2020.00974.

    [21]

    WANG W Q, ZHAO Z C, WANG P Y, et al. Attentive feature augmentation for long-tailed visual recognition[J]. IEEE T Circ Syst Vid Technol, 2022, 32(9): 5803-5816. doi: 10.1109/TCSVT.2022.3161427

    [22]

    PANG S M, WANG W Y, ZHANG R Z, et al. Hierarchical block aggregation network for long-tailed visual recognition[J]. Neurocomputing, 2023, 549: 126463. doi: 10.1016/j.neucom.2023.126463

    [23]

    HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020: 1577-1586. DOI: 10.1109/CVPR42600.2020.00165.

    [24]

    SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016: 2818-2826. DOI: 10.1109/CVPR.2016.308.

    [25]

    PAN F Y, LI S K, AO X, et al. Warm up cold-start advertisements: improving ctr predictions via learning to learn ID embeddings[C]//SIGIR'19: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval, July 2019: 695-704. DOI: 10.1145/3331184.3331268.

    [26]

    LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient descent with warm restarts[J/OL]. arXiv, 2017: 1608.03983v5. https://arxiv.org/pdf/1608.03983.pdf.

    [27]

    WOO S, DEBNATH S, HU R H, et al. Convnext v2: Co-designing and scaling convnets with masked autoencoders[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 2023: n16133-16142. DOI: 10.1109/CVPR52729.2023.01548.

    [28]

    XU C D, CAI R J, XIE Y H, et al. Fine-grained butterfly recognition via peer learning network with distribution-aware penalty mechanism[J]. Animals, 2022, 12(20): 2884. doi: 10.3390/ani12202884

  • 期刊类型引用(1)

    1. 尚浩然,俞洋. DAResNet:基于动态卷积与注意力的鱼类分类算法. 物联网技术. 2025(04): 133-137 . 百度学术

    其他类型引用(2)

推荐阅读
凡纳滨对虾摄食不同饵料的声音信号分类模型研究
曹正良 et al., 南方水产科学, 2025
3组常用鱼类edna宏条形码通用引物对三亚水环境样品的物种检出效果比较
郭瑶杰 et al., 南方水产科学, 2025
2018—2023年珠江口鱼类群落结构变化及其与环境因子的关系
马菁菁 et al., 南方水产科学, 2024
草鱼subfatin分子鉴定及表达特性分析
杨博雅 et al., 南方水产科学, 2024
基于计算机视觉的鱼类行为识别研究进展
郭建军 et al., 大连海洋大学学报, 2025
贝类年龄鉴定技术研究应用进展
高进 et al., 大连海洋大学学报, 2024
Mfgtn: a multi-modal fast gated transformer for identifying single trawl marine fishing vessel
Gu, Yanming et al., OCEAN ENGINEERING, 2024
Fish by-product collagen extraction using different methods and their application
Gaikwad, Sunita et al., MARINE DRUGS, 2024
The identification of ice floes and calculation of sea ice concentration based on a deep learning method
REMOTE SENSING, 2023
Research on the identification and classification of marine debris based on improved yolov8
JOURNAL OF MARINE SCIENCE AND ENGINEERING, 2024
Powered by
图(9)  /  表(4)
计量
  • 文章访问数:  402
  • HTML全文浏览量:  54
  • PDF下载量:  67
  • 被引次数: 3
出版历程
  • 收稿日期:  2023-10-15
  • 修回日期:  2023-12-12
  • 录用日期:  2023-12-15
  • 网络出版日期:  2023-12-20
  • 刊出日期:  2024-02-04

目录

/

返回文章
返回