基于多阶段特征提取的鱼类识别研究

吕俊霖, 陈作志, 李碧龙, 蔡润基, 高月芳

吕俊霖, 陈作志, 李碧龙, 蔡润基, 高月芳. 基于多阶段特征提取的鱼类识别研究[J]. 南方水产科学, 2024, 20(1): 99-109. DOI: 10.12131/20230197
引用本文: 吕俊霖, 陈作志, 李碧龙, 蔡润基, 高月芳. 基于多阶段特征提取的鱼类识别研究[J]. 南方水产科学, 2024, 20(1): 99-109. DOI: 10.12131/20230197
LYU Junlin, CHEN Zuozhi, LI Bilong, CAI Runji, GAO Yuefang. Research on fish recognition based on multi-stage feature extraction learning[J]. South China Fisheries Science, 2024, 20(1): 99-109. DOI: 10.12131/20230197
Citation: LYU Junlin, CHEN Zuozhi, LI Bilong, CAI Runji, GAO Yuefang. Research on fish recognition based on multi-stage feature extraction learning[J]. South China Fisheries Science, 2024, 20(1): 99-109. DOI: 10.12131/20230197

基于多阶段特征提取的鱼类识别研究

基金项目: 农业农村部财政专项 (NFZX2023);广东省重点领域研发计划项目 (2020B1111030002)
详细信息
    作者简介:

    吕俊霖 (1977—),男,副研究员,硕士,研究方向为渔业信息化、鱼类智能识别。E-mail: lvjunlin@scsfri.ac.cn

  • 中图分类号: TP 18; TP 391.41; S 951.2

Research on fish recognition based on multi-stage feature extraction learning

  • 摘要:

    鱼类自动识别在海洋生态学、水产养殖等领域应用广泛。受光照变化、目标相似、遮挡及类别分布不均衡等因素影响,鱼类精准自动识别极具挑战性。提出了一种基于多阶段特征提取网络 (Multi-stage Feature Extraction Network, MF-Net) 模型进行鱼类识别。该模型首先对图片作弱增强预处理,以提高模型的计算效率;然后采用多阶段卷积特征提取策略,提升模型对鱼类细粒度特征的提取能力;最后通过标签平滑损失计算以缓解数据的不平衡性。为验证模型的性能,构建了一个500类、含32 768张图片的鱼类数据集,所建模型在该数据集上的准确率达到86.8%,优于现有的主流目标识别方法。利用公开的蝴蝶数据集对该模型进行泛化性能验证,多组消融实验进一步验证了所提算法的有效性。

    Abstract:

    Automatic fish recognition is widely used in the fields of marine ecology and aquaculture. Due to factors such as fluctuating illumination, overlapping instances and occlusion, accurate automatic identification of fish is extremely challenging. In order to solve these problems, this paper introduces an innovative Multi-stage Feature Extraction Network (MF-Net) model, which is predicated upon a multi-stage feature extraction paradigm for the domain of automatic fish recognition. The architecture of MF-Net commences with a subtle image enhancement preprocessing step, judiciously designed to augment the computational efficiency of the model. Then the deployment of a multi-stage convolutional feature extraction strategy is applied to improve the model's sensitivity towards the granular features of fish species. In an effort to mitigate issues arising from data imbalance, the model incorporates a long-tail loss computation strategy. To evaluate the efficacy of the proposed MF-Net, the study collects a comprehensive fish dataset encompassing 500 categories including 32 768 images. The proposed MF-Net demonstrated a remarkable accuracy of 86.8% on this dataset, thereby outperforming the recognition performance of the existing state-of-the-art target recognition algorithms. Furthermore, the model is tested on a publicly butterfly dataset to verify its generalization performance, and multiple ablation experiments further validate the effectiveness of the proposed algorithm.

  • 三疣梭子蟹 (Portunus trituberculatus),俗称梭子蟹,属于甲壳纲、十足目、梭子蟹科、梭子蟹属,其肉质鲜美、营养丰富,广受消费者青睐,是中国沿海重要的经济蟹类[1]。梭子蟹生长速度快、养殖成本低、经济效益高,已成为中国沿海地区的重要养殖品种。由于雌、雄梭子蟹的营养成分不同,在市场销售前需要对其性别进行分类。目前,梭子蟹的性别分类主要靠人眼识别和手工挑选,效率低下。因此,开发一种计算机辅助自动分类系统来区分梭子蟹的性别非常必要。

    早期的分类任务主要是手工设计提取特征,包括传统机器学习[2-4]和利用上下文信息[5-6],但是该类方法的表达能力较弱,所以分类模型的泛化能力不强。例如,Lecun等[7]提出的一种多层人工神经网络LeNet是为手写数字分类而设计的卷积神经网络 (Convolutional neural network, CNN)。2006年,深度学习 (Deep learning) [8]的概念被提出,在深度学习技术的推动下,图像分类及识别的相关研究迅速发展[9-13]

    基于深度学习的图像分类中,Krizhevsky等[9]构建了一种较深层数的网络AlexNet,并首次引入了Relu激活函数,同时在全连接层中使用Dropout,解决了模型的过拟合问题。牛津大学的几何视觉组 (Visual geometry group[10])设计的VGG模型在网络结构上并没有太大的创新,但是通过实验对比发现,增加网络的层数确实能够在一定程度上提高网络的训练效果。此外,VGG模型始终使用的是非常小的卷积核,通过串联很多小的卷积核后,其感受野和一个大卷积核相同,因此能很大程度地减少模型训练所需的参数。He等[12]开发出一种具有深度残差结构的卷积神经网络ResNet,很好地解决了网络深度达到一定层数时,模型的性能逐渐会趋向于饱和的问题,以及在网络达到某一深层时会使模型的性能急剧下降的问题。

    在过去的几年里,图像的成熟分类技术主要得益于两个关键因素:一个是卷积神经网络,另一个是大量的可用图像数据集,如CIFAR数据集[14]和ImageNet 数据集[15]。当前,一些研究者已经将图像分类方法应用到实际场景中。例如,在医学图像分类领域中,杜丽君等[16]提出了一种基于注意力机制和多任务学习的阿尔兹海默症分类方法。该方法是一种不需要人工提取特征的网络,通过引入注意力机制,能够在不丢失重要特征信息的前提下,将分类任务所需要的关注重点放在目标区域中;随后通过不同的全连接层来实现多任务学习,从而提高了网络的泛化能力。实验结果表明,该方法能够对阿尔兹海默症进行准确分类。在遥感图像分类领域中,王宁等[17]在随机森林、支持向量机和BP神经网络的基础上设计出一种集成分类模型,并将其应用于水产养殖的水体资源遥感动态监测任务中。该模型很好地弥补了单个分类模型分类精度较低以及鲁棒性较差等缺点,在很大程度上避免了山体与建筑阴影等外在因素对水体特征提取的干扰。最终实验结果显示该分类模型拥有较高的分类精度,表明该模型能够成为水体资源遥感动态监测的分析工具之一。此外,朱明等[18]基于轻量级神经网络构建出一种鲈鱼捕食状态分类网络,满足了现代智能水产养殖的自动投喂需求。

    然而,尚未见图像分类的相关技术应用于梭子蟹性别识别的研究报道。为此,本文提出一种应用于梭子蟹性别识别任务的分类方法:首先构建一个用于梭子蟹性别分类的数据集PGCD;然后搭建一种多组卷积神经网络 (Multi-group convolutional neural network, MGCNN),并使用注意力机制更专注地找出输入数据的有用信息;最后通过一系列的调整参数工作提高MGCNN的分类精度。

    图1展示了本文所提方法的整体框架,包括数据预处理、数据增强以及MGCNN。 其中,MGCNN包含了深度提取特征模块和融合特征分类模块。数据预处理主要是将采集到的梭子蟹图像进行降低像素处理,从而解决后续处理速度过慢的问题;数据增强主要是对经过预处理后的梭子蟹图像进行数据扩充,解决了少量样本可能给网络带来的过度拟合问题,或者样本不均衡导致模型预测时对多数类的侧重问题;深度提取特征模块使用几组成熟的CNN 来提取图像的视觉特征,通过实验对比,最终的CNN本文选取ResNet50;融合特征分类模块主要是先将CNN提取到的特征进行信息融合,然后利用注意力机制代替传统池化层,在降低融合特征图维度的同时,去除了特征图的冗余信息,保留特征图的重要信息,最后经过输出分类层获取分类结果。

    图  1  所提方法的总体架构
    Figure  1.  Overall architecture of our approach

    在公开数据库中,并没有梭子蟹性别分类的数据集,因此首先需要构建相关的数据集。本文的原始梭子蟹数据集主要由课题组在舟山水产品加工公司采集,采集所用设备的配置为10 800万像素的主摄+1 300万像素的超广角镜头+500万像素的长焦微距镜头。采集到的原始数据集共有1 174 张图像,其中雌、雄性图像各494和680 张,图像像素约为3 024×4 032。图2为部分采集的梭子蟹样品。

    图  2  部分梭子蟹样本 (左:雌性;右:雄性)
    Figure  2.  Samples of Portunid (Left: female; Right: male)

    由于所采集的图像像素较大,导致后续操作中处理速度较慢,因此需要对图像进行像素降低处理,调整后的图像大小统一为224×224像素。传统的降低像素操作通常是利用opencv库的resize( ), 然而这种操作对于尺寸非N×N大小转化为N×N大小的图像来说,会改变图像原有的特征,影响网络的最终分类精度[19-21]。因此,本文采用一种等比例调整图像大小的方法,即在不改变宽高比的情况下进行图片调整,并填充至实验所需要的224×224像素的图像。resize ( ) 和等比例调整大小并填充的图像对比如图3所示。

    图  3  两种降低像素的效果对比
    Figure  3.  Comparison of two pixel reduction effects

    经过预处理后,将数据集随机分成原始训练集和原始测试集,均包含587 张梭子蟹图像 (雌性 247 张,雄性 340 张)。为了解决少量样本可能给网络带来的过度拟合问题,或者样本不均衡导致模型预测时对多数类的侧重问题,需要对原始数据集进行数据增强,以扩充出更多数据来提高数据集的数量和质量,提高网络模型的学习效果[22-24]。数据增强的过程如下所述:

    (I) 随机翻转:为了解决样本不均衡问题,本文随机从原始训练集和原始测试集中各选取93 张雌性图像,进行随机翻转,从而使得原始训练集和原始测试集中雌性和雄性图像均有340 张。随机翻转是指从3种翻转方式中 (水平翻转、垂直翻转和水平-垂直翻转) 随机选取一种进行翻转。

    (II) 随机旋转:对 (I) 中的原始训练集图像进行随机角度旋转,旋转角度在0°~90°、90°~180°、180°~270°和270°~360° 4个范围内进行随机选取。

    (III) 随机平移:对 (I) 中的原始训练集图像进行随机像素平移,像素平移在−20至20之间进行随机选取,包括8个方向。

    (IV) 随机明亮度:对 (I) 中的原始训练集图像进行随机明亮度调整,调整系数在0.8~1.0和1.0~1.2两个范围内随机选取。

    (V) 随机噪声:对 (I) 中的原始训练集图像随机添加高斯噪声和椒盐噪声,添加噪声的系数均介于0.009~0.011随机选取。

    值得注意的是,除了(I) 对训练集和测试集进行数据增强,(II)—(V) 均仅对训练集进行数据增强。其中,(IV) 和 (V) 主要是针对模型识别过程中图像出现的明亮度变化和噪声影响。通过 (IV) 和 (V) 两种数据增强技术可以让模型在现实环境中具有更好的应对能力。

    5种不同类型的数据增强技术示例如图4所示。因此,经过数据增强后最终的数据集共有12 312 张梭子蟹图像,将其命名为PGCD。其中,训练集和测试集分别各有11 560 张 (雌性 5 780 张,雄性 5 780 张) 和680张 (雌性 340 张,雄性 340 张) 图像。

    图  4  5 种不同类型的数据增强技术的示例
    Figure  4.  Examples of five different types of data enhancement technologies

    虽然Transformer[25]已经成为自然语言处理任务上的重要体系结构之一,但它在计算机视觉 (Computer Vision, CV) 领域的应用却非常有限。为了解决该问题,Dosovitskiy等[26]开发出一种Vision Transformer (ViT) 模型,可以直接应用于图像块序列 (Sequences of image patches),并且能够很好地执行图像分类任务。受这项工作的启发,本研究在提取特征之前设置了图像块来渲染每张图 (图5)。

    图  5  深度提取特征模块
    Figure  5.  Depth extraction feature module

    具体操作是将输入图像切分成多个大小一致的图像块。在此假设输入图像的尺寸大小为N×N,需要切分的图像块数为n2,那么图像块的尺寸大小NP×NP用公式可表示为:

    $$ {N_P} \times {N_P} = \frac{N}{n} \times \frac{N}{n} $$ (1)

    式中:n为正整数。本文所提的MGCNN的输入图像尺寸为224×224 像素,图像块的个数n2=4,所以图像块的尺寸为112×112 像素。

    在4组图像块渲染图像之后,需要通过CNN来对每个图像块进行特征学习。为了减少特征提取过程的信息丢失,使得特征提取更有力,本文使用具有残差块的ResNet50作为深度提取特征模块中的主干CNN。ResNet50的残差块示意图见图6

    图  6  ResNet50[12]残差模块示意图
    Figure  6.  Residuals block diagram of ResNet50[12]

    可以看出,残差块具有两条路径,一条是进行跳跃连接的输入特征X,另一条是经过3次卷积操作后得到的映射函数F(X),然后将这两条路径连接后就能得到残差模块的输出H(X),其过程可用公式 (2) 来表示:

    $$ {H_{(X)}} = X + {F_{(X)}} $$ (2)

    融合特征分类模块如图7所示。通过CNN学习不同图像块的视觉特征后,需要一个独特的全局描述符来表示图像。本文将不同图像块的视觉特征拼接 (Concatenate) 成一个全局特征图。最近一些研究表明,适当增加一些注意力机制可以更专注地找出输入数据的有用信息[27-29]。 为此,在分类之前本研究引入了一个注意力机制,来强调全局特征图中的细节重要性。首先,通过3个1×1的卷积层从全局特征图中获得QKV 3个特征层;其次,将Q转置后与K做乘积运算形成一个新的特征图,再经过softmax函数后形成注意力权重;然后,将V与注意力权重做积运算,并使用最大池化对其结果进行降低维度处理;最后,通过全连接层获取待分类类别的概率分布。

    图  7  融合特征分类模块
    Figure  7.  Fusion feature classification module

    本实验均在同一环境配置的计算机上完成,训练集和测试集均来自于构建的PGCD数据集。用于实验的计算机配置为Windows10、NVidia GeForce GTX 1080 Ti GPU、16 GB 内存,实验基于Pytorch的方法[30]来实现,损失函数使用交叉熵损失 (Cross entropy loss) ,最大epoch值设置为100。通过实验对比,本研究提出方法的backbone model为ResNet50,学习率值设置为 0.000 1,batch size设置为32。此外,为了优化整体模型架构,本文使用 Adam[31]作为训练阶段优化器。

    衡量模型分类性能的评估指标主要包括分类准确率 (又称分类精度)、召回率与查准率等[32-35]。本文主要采用这3个指标对所提方法进行评价。图8为混淆矩阵图。

    图  8  混淆矩阵
    注:TP. 真阳性;FN. 假阴性;FP. 假阳性;TN. 真阴性。
    Figure  8.  Confusion matrix
    Note: TP. True positive; FN. False negative; FP. False positive; TN. True negative.

    为此,分类准确率可用公式 (3) 进行表征:

    $$ A_{\rm{cc}} = \frac{{{{\rm{TP}}} + {{\rm{TN}}}}}{{{{\rm{TP}}} + {{\rm{FP}}} + {{\rm{TN}}} + {{\rm{FN}}}}} $$ (3)

    召回率可用公式 (4) 进行表征:

    $$ R = \frac{{{{\rm{TP}}}}}{{{{\rm{TP}}} + {{\rm{FN}}}}} $$ (4)

    查准率可用公式 (5) 进行表征:

    $$ P = \frac{{{{\rm{TP}}}}}{{{{\rm{TP}}} + {{\rm{FP}}}}} $$ (5)

    式中:Acc代表分类准确率 (Accuracy);R代表召回率 (Recall);P代表查准率 (Precision)。

    成熟的卷积神经网络能够很好地进行特征学习和特征提取[36-37]。为此,本文主要选取VGG模型[10]和ResNet模型[12]作为MGCNN的深度提取特征模块的主干模型。不考虑DenseNet模型[23]最主要的原因是该模型属于较大的网络,需要训练更多的参数,并且可能由于过拟合导致分类精度提高不明显。而VGG和ResNet系列属于较小的网络,可以节省额外的计算开销以及训练时间。为了公平比较,在这里统一将学习率值设置为 0.001,批大小设置为32;此外,本文选取了 SGD[38]作为不同骨干模型的对比实验训练阶段的优化器。结果如表1所示,可以看出,在相同的学习率、批大小以及相同优化器的情况下,ResNet 系列普遍优于VGG系列。值得注意的是,ResNet152的精度未超过90%,再次验证了较大网络的过拟合现象会影响分类精度。由于ResNet50以92.79%的分类精度位居第一,因此本研究选取ResNet50作为MGCNN的骨干模型。

    表  1  不同骨干模型对 MGCNN 性能的影响
    Table  1.  Effects of different backbone models on MGCNN performance
    骨干模型
    Backbone model
    准确率 
    Accuracy/% 
    VGG VGG11 76.88
    VGG13 82.59
    VGG16 89.76
    VGG19 86.09
    ResNet ResNet18 90.44
    ResNet34 91.15
    ResNet50 92.79
    ResNet101 92.21
    ResNet152 88.24
    下载: 导出CSV 
    | 显示表格

    深度学习的过程中会产生一定的损失[39],所以应尽可能地减少损失来优化所提出的MGCNN模型,使其拥有更好的分类性能。事实上,深度神经网络的每一层都有各自的权重参数,这些权重参数决定着神经网络的输出。因此需要利用优化器 (Optimizer) 来降低损失,从而更新模型的可学习权重参数来优化网络模型。本研究以SGD[38]、AdaGrad[40]、RMSprop[41]、Adam[31]、Adamax[42]、ASGD[43] 6种优化器作为探讨优化器选取的对比实验。在这里学习率仍为 0.001,批大小为32,结果如表2所示。可以看出,在相同骨干模型的情况下,上述6种优化器中Adam最为突出,分类精度达到95.29%,均领先于其他优化器。因此,本文选取Adam作为MGCNN的优化器。

    表  2  不同优化器对MGCNN性能的影响
    Table  2.  Effects of different optimizers on MGCNN performance
    骨干模型
    Backbone model
    优化器
    Optimizer
    准确率 
    Accuracy/% 
    ResNet50 SGD 92.79
    AdaGrad 89.56
    RMSprop 95.15
    Adam 95.29
    Adamax 93.82
    ASGD 92.65
    下载: 导出CSV 
    | 显示表格

    通过调整学习率以及批大小可以提高模型的分类性能[28,44-45],在MGCNN的骨干模型和优化器均确定的情况下 (ResNet50+Adam),本研究进一步探讨了不同参数对其分类性能的影响,以实现最佳精度。对于模型训练而言,学习率是控制权重更新的重要参数[46]。一方面,使用过大的学习率可能会忽略最优值的位置,导致模型不收敛;另一方面,使用过小的学习率容易出现过拟合,导致模型收敛缓慢。因此,首先应确定最优学习率。在本实验中,将最开始的学习率设置为0.000 1,批大小设置为32。本次实验遵循从较小的速率开始,并依次增加直到发现最佳学习率。当最佳学习率确定后,需要进行实验来确定最佳批大小,以优化网络训练的收敛速度和稳定性[45]。本研究依次将批大小设置为64、32和16来训练网络,最终的实验结果如表3所示。结果表明,当学习率和批大小分别为0.001 5和32时,MGCNN的分类效果最高,分类精度达到95.59%。因此,本文将最佳学习率设置为0.001 5,最佳批大小设置为32。

    表  3  不同参数对 MGCNN 性能的影响
    Table  3.  Effects of different parameters on MGCNN performance
    学习率
    Learning rate
    批大小
    Batch size
    准确率
    Accuracy/% 
    0.000 1 32 92.94
    0.000 5 95.00
    0.001 0 95.29
    0.001 5 95.59
    0.002 0 92.65
    0.001 5 64 94.56
    32 95.59
    16 95.15
    下载: 导出CSV 
    | 显示表格

    为了评估所提方法MGCNN的分类性能,本文在已构建的PGCD数据集上进行了相关的分类任务实验,并将所提方法与其他先进的模型[9-10,12-13,46]进行比较,包括AlexNet、VGG16、ResNet152、InceptionV3和DenseNet121。这些模型之前均在用于图像分类的ImageNet数据集[9]上训练过,但并没有训练过PGCD。为了适应PGCD数据集,实验过程中将上述网络模型的输出分类层替换为具有两个类别 (雌性和雄性) 的输出分类层。

    表4给出了MGCNN与一些先进方法的实验对比结果。可以看出,AlexNet显示了最差的性能;ResNet152和DenseNet121网络较深,召回率和查准率相对平衡,但分类精度未超过95%;InceptionV3分类精度达到95%,却因其查准率高导致召回率低;而本文所提的网络相比InceptionV3而言,分类精度有所提升,并且在查准率仅降低0.54%的情况下,将召回率提升1.76%。网络分类错误率最低,仅占4.41%,分类性能均领先于其他方法。

    表  4  MGCNN 与先进方法的比较
    Table  4.  Comparison between MGCNN and state-of-the-art methods
    方法
    Method
    准确率
    Accuracy/% 
    召回率
    Recall/% 
    查准率
    Precision/% 
    错误率
    Error/% 
    AlexNet54.7159.3667.9345.29
    VGG1689.8588.2491.1910.15
    ResNet15294.5694.7194.435.44
    DenseNet12194.4194.4194.415.59
    InceptionV395.0092.6597.225.00
    MGCNN
     (本研究方法 Our method) 
    95.5994.4196.684.41
    下载: 导出CSV 
    | 显示表格

    为了更直观地显示所提方法的优越性,本文给出了PGCD测试集上梭子蟹性别分类的混淆矩阵 (Confusion matrix) ,如图9所示。图中主对角线显示的是识别正确的数目,副对角线显示的是识别错误的数目。可以看出,梭子蟹共有680 只,仅30 只被错误归类。其中,雌、雄蟹各有321、329 只被正确归类,仅11只雄蟹错归为雌性,19 只雌蟹错归为雄性。表明所提方法具有很好的分类效果。

    图  9  梭子蟹性别分类的混淆矩阵
    Figure  9.  Confusion matrix of gender classification of P. tritubereulatus

    此外,受试者工作特征 (Receiver operating characteristic, ROC) 曲线和ROC曲线下的面积 (Area under the ROC curve, AUC) 也可以用于度量分类模型的好坏。MGCNN的ROC曲线和AUC如图10所示。可以看出,所提方法的AUC达到98.88%,在梭子蟹性别分类任务中取得优异的性能。

    图  10  比较不同网络性能的受试者工作特征曲线 (ROC) 和 ROC曲线下的面积
    Figure  10.  Comparison of Receiver Operating Characteristic (ROC) curve and area under ROC curve for subjects with different network performance

    为了验证模型的实际应用效果,采购雌、雄梭子蟹各20只,在实验室对其性别进行自动识别验证。验证图像采用等比例调整大小并填充的预处理方式。图11展示了单幅图像预测的示例,可以看出预测均正确,且预测概率均超过95%。此外,经统计分析,识别一张图像的时间不超过1 s。因此,本研究所提的算法可以很好地应用在梭子蟹性别自动分类及识别系统。

    图  11  单幅图像预测概率
    Figure  11.  Prediction probability of single image

    为了实现梭子蟹性别的智能化识别,促进现代渔业分拣装备由半机械化、机械化走向智能化,本文构建了梭子蟹性别分类数据集 (PGCD),提出了一种用于梭子蟹性别分类的多组卷积神经网络框架。该网络首先通过引入ResNet对图像块提取特征,减少特征提取过程的信息丢失,使得特征提取更有力;然后提出一种注意力机制代替传统的池化层,从而更专注地找出输入数据的有用信息;最后进行了一系列的参数调整,使得所提的MGCNN拥有最优分类性能。实验结果表明,所提方法在PGCD数据集上具有分类优越性,分类准确率高达95.59%。未来,将围绕梭子蟹的尺寸、肥瘦、蟹钳完整程度等特征进行分类,进一步完善梭子蟹智能识别系统。

  • 图  1   原始鱼类数据集特点

    Figure  1.   Characteristics of raw fish data

    图  2   类间相似和类内差异

    Figure  2.   Subtle differences between species and dramatic changes among same species

    图  3   MF-Net模型结构

    Figure  3.   Structure of MF-Net

    图  4   预处理模块

    Figure  4.   Pre-processing module

    图  5   MF-Net block结构

    Figure  5.   Structure of MF-Net block

    图  6   MF-Net模型不同预处理方式的识别结果

    Figure  6.   Recognition results based on different pro-processing strategies in proposed MF-Net

    图  7   MF-Net 模型不同block结构的识别性能

    Figure  7.   Recognition results based on different block structures in proposed MF-Net

    图  8   MF-Net模型中不同下采样策略

    Figure  8.   Recognition results based on different down sampling strategies in proposed MF-Net

    图  9   基于不同损失函数的识别性能

    Figure  9.   Recognition results based on different loss functions in proposed MF-Net

    表  1   主流识别模型性能对比

    Table  1   Comparison of different generic recognition methods

    模型
    Model
    浮点运算次数
    Floating point operations per second/G
    参数量
    Parameter quantity/M
    Acc-1准确率
    Acc-1 accuracy/%
    召回率
    Recall/%
    精确率
    Precision/%
    F1分数
    F1-score
    ResNet-504.13025.6082.6072.9778.090.724
    ResNet-50 (标签平滑
    Label smoothing)
    4.13025.6085.1076.4580.270.761
    GhostNet0.1565.1883.3175.2178.850.746
    ConvNext15.40087.5084.2776.2079.620.759
    MF-Net1.74010.4086.8078.3781.800.781
    下载: 导出CSV

    表  2   蝴蝶数据集下不同长尾模型识别性能

    Table  2   Comparison of accuracy with different long-tailed methods on butterfly dataset

    模型
    Model
    Acc-1 准确率
    Acc-1 accuracy/%
    头部类别精度
    Many-shot/%
    尾部类别精度
    Few-shot/%
    DRC80.9087.2769.03
    BBN82.2088.0268.97
    ResNet-5080.9086.0966.66
    GhostNet82.2086.5568.33
    ConvNext82.7086.5868.09
    MF-Net83.8089.4072.55
    下载: 导出CSV

    表  3   鱼类数据集下不同长尾识别模型对比

    Table  3   Comparison of different long-tailed methods on fish dataset

    模型
    Model
    Acc-1准确率
    Acc-1 accuracy/%
    头部类别精度
    Many-shot/%
    尾部类别性能
    Few-shot/%
    BBN84.3789.4372.55
    DRC83.5988.7369.80
    MF-Net86.8090.1776.53
    下载: 导出CSV

    表  4   平衡鱼类数据集下不同识别模型损失对比

    Table  4   Comparison of different recognition methods with different losses in balanced fish dataset

    模型
    Model
    浮点运算次数
    Floating point operations per second/G
    参数量
    Parameter quantity/M
    Acc-1准确率
    Acc-1 accuracy/%
    召回率
    Recall/%
    F1分数
    F1-score
    ResNet-50 (交叉熵 Cross entropy) 4.130 25.60 90.32 90.04 0.892
    ConvNext (交叉熵Cross entropy) 15.400 87.50 91.85 90.07 0.901
    GhostNet (交叉熵Cross entropy) 0.156 5.18 91.34 90.37 0.905
    MF-Net (交叉熵Cross entropy) 1.740 10.40 94.50 94.19 0.943
    ResNet-50 4.130 25.60 89.80 88.87 0.889
    ConvNext 15.400 87.50 92.50 92.24 0.925
    GhostNet 0.156 5.18 92.25 92.16 0.923
    MF-Net 1.740 10.40 94.05 93.73 0.937
    下载: 导出CSV
  • [1]

    PRIMO A L. Ecology of marine fish larvae[M]//WALTER L F, ANABELA M A, LUCIANA B, et al. Encyclopedia of the UN sustainable development goals, life below water. New York: Springer Nature, 2021: 1-10.

    [2]

    LI D L, WANG Z H, WU S Y, et al. Automatic recognition methods of fish feeding behavior in aquaculture: a review[J]. Aquaculture, 2020, 528: 735508. doi: 10.1016/j.aquaculture.2020.735508

    [3] 麦广铭, 陈志劼, 王学锋, 等. 南海北部沿岸鱼类分类学多样性的空间格局[J]. 南方水产科学, 2022, 18(3): 38-47. doi: 10.12131/20210117
    [4]

    CHEN W H, LIU J Y, ZHANG Y P, et al. Current status and accics of research on smart fishery in China: a literature review based on CNKI (2000−2022)[J]. Int J Environ Sustain Protect, 2023, 2(4): 24-32.

    [5]

    HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016: 770-778. DOI: 10.1109/CVPR.2016.90.

    [6]

    LIU Z, LI Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted Windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021: n9992-10002. DOI: 10.1109/ICCV48922.2021.00986.

    [7]

    ZHUANG P Q, WANG Y L, QIAO Y. Wildfish++: a comprehensive fish benchmark for multimedia research[J]. IEEE T Multimedia, 2021, 23: 3603-3617. doi: 10.1109/TMM.2020.3028482

    [8]

    LIU Z H, JIA X J, XU X S. Study of shrimp recognition methods using smart networks[J]. Comput Electron Agric, 2019, 165: 104926. doi: 10.1016/j.compag.2019.104926

    [9] 汪小旵, 武尧, 肖茂华, 等. 水产养殖中智能识别技术的研究进展[J]. 华南农业大学学报, 2023, 44(1): 24-33. doi: 10.7671/j.issn.1001-411X.202204013
    [10]

    YANG X T, ZHANG S, LIU J T, et al. Deep learning for smart fish farming: applications, opportunities and challenges[J]. Rev Aquac, 2021, 13(1): 66-90. doi: 10.1111/raq.12464

    [11]

    RUM S N M, NAWAWI F A Z. FishDeTec: a fish identification application using image recognition approach[J]. Int J Adv Comp Sci Appl, 2021, 12. DOI: 10.14569/IJACSA.2021.0120312.

    [12] 李均鹏, 祝开艳, 杨澍. 基于迁移学习的复杂场景海洋鱼类识别方法[J]. 计算机应用与软件, 2019, 36(9): 168-174. doi: 10.3969/j.issn.1000-386x.2019.09.030
    [13] 姚润璐, 桂詠雯, 黄秋桂. 基于机器视觉的淡水鱼品种识别[J]. 微型机与应用, 2017, 36(24): 37-39.
    [14]

    CHRISTENSEN J H, MOGENSEN L V, GALEAZZI R, et al. Detection, localization and classification of fish and fish species in poor conditions using convolutional neural networks[C]. 2018 IEEE/OES Autonomous Underwater Vehicle Workshop (AUV), Porto, Portugal, 2018: 1-6. DOI: 10.1109/AUV.2018.8729798.

    [15]

    PRAMUNENDAR R A, WIBIRAMA S, SANTOSA P I. Fish classification based on underwater image interpolation and back-propagation neural network[C] 2019 5th International Conference on Science and Technology (ICST), Yogyakarta, Indonesia, 2019: 1-6.

    [16]

    POUYANFAR S, TAO Y D, MOHAN A, et al. Dynamic sampling in convolutional neural networks for imbalanced data classification[C]//2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR), Miami, FL, USA, 2018: 112-117. DOI: 10.1109/MIPR.2018.00027.

    [17]

    KANG B Y, XIE S N, ROHRBACH M, et al. Decoupling representation and classifier for long-tailed recognition[J]. arXiv, 2020: 1910.09217v2. DOI: 10.48550/arXiv.1910.09217.

    [18]

    ZHANG S Y, LI Z M, YAN S P, et al. Distribution alignment: a unified framework for long-tail visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021: 2361-2370. DOI: 10.1109/CVPR46437.2021.00239.

    [19]

    CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples[C/OL]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 9268-9277. [2023-11-10]. https://openaccess.thecvf.com/content_CVPR_2019/papers/Cui_Class-Balanced_Loss_Based_on_Effective_Number_of_Samples_CVPR_2019_paper.pdf.

    [20]

    ZHOU B Y, CUI Q, WEI X S, et al. BBN: Bilateral-branch network with cumulative learning for long-tailed visual recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020: 9716-9725. DOI: 10.1109/CVPR42600.2020.00974.

    [21]

    WANG W Q, ZHAO Z C, WANG P Y, et al. Attentive feature augmentation for long-tailed visual recognition[J]. IEEE T Circ Syst Vid Technol, 2022, 32(9): 5803-5816. doi: 10.1109/TCSVT.2022.3161427

    [22]

    PANG S M, WANG W Y, ZHANG R Z, et al. Hierarchical block aggregation network for long-tailed visual recognition[J]. Neurocomputing, 2023, 549: 126463. doi: 10.1016/j.neucom.2023.126463

    [23]

    HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020: 1577-1586. DOI: 10.1109/CVPR42600.2020.00165.

    [24]

    SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016: 2818-2826. DOI: 10.1109/CVPR.2016.308.

    [25]

    PAN F Y, LI S K, AO X, et al. Warm up cold-start advertisements: improving ctr predictions via learning to learn ID embeddings[C]//SIGIR'19: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval, July 2019: 695-704. DOI: 10.1145/3331184.3331268.

    [26]

    LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient descent with warm restarts[J/OL]. arXiv, 2017: 1608.03983v5. https://arxiv.org/pdf/1608.03983.pdf.

    [27]

    WOO S, DEBNATH S, HU R H, et al. Convnext v2: Co-designing and scaling convnets with masked autoencoders[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, 2023: n16133-16142. DOI: 10.1109/CVPR52729.2023.01548.

    [28]

    XU C D, CAI R J, XIE Y H, et al. Fine-grained butterfly recognition via peer learning network with distribution-aware penalty mechanism[J]. Animals, 2022, 12(20): 2884. doi: 10.3390/ani12202884

图(9)  /  表(4)
计量
  • 文章访问数:  371
  • HTML全文浏览量:  51
  • PDF下载量:  64
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-10-15
  • 修回日期:  2023-12-12
  • 录用日期:  2023-12-15
  • 网络出版日期:  2023-12-20
  • 刊出日期:  2024-02-04

目录

/

返回文章
返回