Study on classification models for acoustic signals of Litopenaeus vannamei feeding on different kinds of diets
-
摘要:
利用机器学习技术对凡纳滨对虾 (Litopenaeus vannamei) 摄食不同饵料时的声音信号进行分类,旨在比较不同分类模型的性能,确定最优模型,为对虾养殖中饵料管理的信息化提供参考。研究选取对虾摄食沙蚕、颗粒饲料和鱿鱼时的声音信号,经降噪滤波处理后,通过2类方式分类:1) 基于音频特征向量,分别建立支持向量机 (Support vector machine, SVM)、随机森林 (Random forest, RF) 和k-最近邻 (k-nearest neighbor, KNN) 模型;2) 基于梅尔频谱图,建立卷积神经网络 (Convolutional neural networks, CNN) 模型。结果表明,结合Mixup数据增强技术和粒子群优化算法 (Particle swarm optimization, PSO) 的CNN模型在准确率方面表现最佳,达到91.67%。4个模型在识别颗粒饲料的召回率均超过90%,说明摄食颗粒饲料的声音信号相较于摄食沙蚕和鱿鱼等软体饵料更易识别。CNN模型不仅在准确率、精确度、召回率和F1分数等指标上均优于上述传统模型,同时能够适应复杂声学信号的分析需求,具有较大的应用潜力。
Abstract:We explored the classification of acoustic signals of L. vannamei feeding on different kinds of diets with machine learning techniques, so as to recognize the best model by comparing the performance among different classification models, and to provide references for the informatisation of feed management in shrimp aquaculture. We selected and processed the acoustic signals of L. vannamei feeding on nereid, pellet feed and squid After noise reduction and filtering, two classification ways were employed: 1) Building models including support vector machine (SVM), random forest (RF), and k-nearest neighbor (KNN) based on audio feature vectors; 2) Building convolutional neural network (CNN) based on Mel-spectrograms. The results indicate that the CNN model, enhanced with Mixup data augmentation and particle swarm optimization (PSO), achieved the highest accuracy of 91.67%. In addition, all four models achieved a recall rate exceeding 90% in identifying pellets, which indicates that the feeding acoustic signals of shrimps feeding on pellets were more distinguishable than those associated with nereid and squid. The CNN model outperformed the traditional models in accuracy, precision, recall, and F1 score, exhibiting greater adaptability for analyzing complex acoustic signals with significant potential for its practical application.
-
甲壳类动物,尤其是虾类,在全球水产养殖中具有重要的经济价值。其中,凡纳滨对虾(Litopenaeus vannamei) 是亚洲和拉丁美洲养殖增长最快的物种之一。截至2020年,其产量占全球甲壳类养殖总产量的51.7%[1]。随着养殖规模的不断扩大,饵料的高效利用显得尤为重要。由于养殖水体透明度低,光学技术在监测对虾摄食行为方面存在一定的局限性,且设备成本高昂更限制了其应用[2]。被动声学技术因其低成本和高效的特点,正逐渐被广泛应用于包括对虾在内的各种动物摄食声音信息的监测[3-6]。
现有的研究多集中于凡纳滨对虾摄食人工颗粒饲料的声音信号分析。Peixoto等[7]研究发现,颗粒饲料长度对摄食声音特征无显著影响,而摄食次数与颗粒饲料的消耗量呈正相关。Soares等[8]的研究进一步表明,对虾在摄食不同加工方式的颗粒饲料时,其声音信号特征无明显差异。这表明颗粒饲料的长度和加工方式不会显著影响对虾的摄食声音特征,且被动声学监测可用于掌握摄食颗粒饲料的行为活跃度。因此,在对虾摄食颗粒饲料研究方面,准确识别其声音信号有助于估算进食节律、评估颗粒饲料的消耗量,为颗粒饲料优化和信息化养殖管理提供理论依据。实际应用中,已有研究证明被动声学技术的有效性。例如,澳大利亚的AQ1声学反馈系统[6]在凡纳滨对虾养殖中实现了自动投喂,提高了养殖效益。在对虾养殖中,除了颗粒饲料外,活体饵料 (如沙蚕[9]、鱿鱼[10]) 对提升对虾的存活率和生长速度有显著效果[11-14]。通过活体饵料和颗粒饲料的混合投喂能提高颗粒饲料的利用效率,从而降低养殖成本[15]。然而,对虾摄食不同饵料时会产生不同的声音信号[16-17]。因此,准确区分这些信号能够反映其摄食行为状态,有助于管理者优化投饲策略。但这些信号间的差异增加了实时监测的复杂性,尤其在处理大规模数据时,利用传统的数据处理方法难以高效地获得识别结果。
近年来,机器学习技术为自动化特征提取与分类提供了新的途径。在对虾行为监测领域,Sánchez-Gendriz等[18]的研究表明,基于Python的自动检测方法可用于监测对虾的摄食活动,展示了其在水产养殖管理中的应用潜力。然而,大部分研究集中于利用机器学习对凡纳滨对虾的行为声音信号进行分类,且建模方式主要基于声音特征参数或特征向量[19-20]。相较之下,另一类基于梅尔频谱图的深度学习模型,在鱼类[21-22]、海豚[23]、海牛[24]等水生动物声音信号分类研究中也展现出了较好的应用前景,但在对虾行为监测领域尚未得到广泛研究。探索此类模型在对虾养殖中饵料管理的潜在应用价值,可为相关研究提供新的技术思[25]。
本研究利用机器学习技术对凡纳滨对虾摄食不同饵料 (如颗粒饲料、沙蚕、鱿鱼) 时的声音信号进行分类,通过比较基于音频特征向量的传统机器学习模型与基于梅尔频谱图的卷积神经网络(Convolutional neural networks, CNN) 模型的分类性能,选择以准确率为主要性能指标的最优模型,从而为基于对虾摄食行为声音信号的饵料管理信息化系统开发提供技术路径参考。
1. 材料与方法
1.1 试验材料
试验数据源于浙江省舟山市嵊泗大洋山养殖基地所采集的凡纳滨对虾摄食沙蚕、颗粒饲料和鱿鱼的原始音频数据[17]。
在试验中,选择在养殖基地大池中养殖的凡纳滨对虾(平均体长约10 cm)作为样本。试验装置包括一个尺寸为44 cm×28 cm×30 cm的玻璃水箱、声音采集系统(由HTI-96-Min水听器和SM4生物声学记录仪组成)、大疆Osmo Action水下摄像机、加热棒和增氧泵,试验布设如图1所示。
为减少光照影响和环境噪音干扰,水箱外部覆盖黑色薄膜,顶部和底部覆盖泡沫板。试验前,对虾在相同条件下暂养,维持28 ℃的水温和30‰的盐度,并禁食20 h。试验时,随机挑选1组对虾(3尾) 放入试验水箱,维持与暂养水箱一样的环境。将水听器放于水深2/3处,摄像机放于水箱底部,随后关闭增氧泵,进行声音采集,采样频率设为96 kHz,按实验设计投放死亡的沙蚕、粒径0.8 mm的颗粒饲料和切成小块的鱿鱼3种饵料。每次投喂1种饵料,采集10 min后更换试验对虾,每种饵料重复采集3组。最终将音频和视频的时间尺度对齐,以准确获取摄食声音信号。将每个声音信息截取为0.1 s的wav文件,累计得到摄食沙蚕、颗粒饲料和鱿鱼的wav文件321、187和210个,共计718个。
模型试验环境为64位Windows 11操作系统,试验设备为单张NVIDIA RTX3060,并在Python 3.8 + TensorFlow−GPU 2.10 + keras 2.10的虚拟环境下进行试验。
1.2 信号预处理
在采集凡纳滨对虾摄食声音信号过程中,由于环境因素,数据受到了电干扰和噪声的影响。为进行准确分析,本研究使用Adobe Audition软件对数据进行降噪处理,选取信号两侧的环境噪声作为样本,调整降噪幅度至5 dB,降噪量至17%,以去除相同频率的噪声及电干扰。随后使用维纳滤波进一步降噪,原理如下:
维纳滤波可用于提取平稳噪声环境中的声音信号,原始混合信号可表示为:
$$ y\left(n\right){\mathrm{=}}s\left(n\right){\mathrm{+}}d\left(n\right) $$ (1) 式中:$ y\left(n\right) $为原始混合信号;$ s\left(n\right) $为目标信号;$ d\left(n\right) $为噪声信号。
设计一个数字滤波器h(n),当输入$ y\left(n\right) $时,滤波器的输出为:
$$ \widehat{s}\left(n\right){\mathrm{=}}y\left(n\right)\times h\left(n\right){\mathrm{=}}\sum _{{{m}}{\mathrm{=}}{\text{−}}\infty }^{{\mathrm{+}}\infty }y\left(n{\text{−}}m\right)h\left(m\right) $$ (2) 式中:$ \widehat{s}\left(n\right) $为对目标信号的估计。维纳滤波的基本原理为寻找滤波器h(n),使其输出与纯净目标信号最为接近,即遵循均方误差准则,令$ s\left(n\right) $和$ \widehat{s}\left(n\right) $均方误差$ \varepsilon {\mathrm{=}}E\left[{\left\{s\left(n\right){\text{−}}\widehat{s}\left(n\right)\right\}}^{2}\right] $达到最小。
可得维纳滤波器的谱估计函数[26]:
$$ H\left({\omega }_{k}\right){\mathrm{=}}\frac{{P}_{{\mathrm{s}}}\left({\omega }_{k}\right)}{{P}_{{\mathrm{s}}}\left({\omega }_{k}\right){\mathrm{+}}{P}_{{\mathrm{d}}}\left({\omega }_{k}\right)} $$ (3) 式中:$ {P}_{{\mathrm{s}}}\left({\omega }_{k}\right) $和$ {P}_{{\mathrm{d}}}\left({\omega }_{k}\right) $分别为傅里叶变换后$ s\left(n\right) $和$ d\left(n\right) $的功率谱密度。
1.3 数据集准备
本研究准备的数据集主要包括预处理后的音频数据,及其相应的元数据。音频数据存储在指定目录下,对应的元数据存储在csv文件中。该文件包含音频文件的文件名、标签信息以及每个音频文件所属的类别,其中摄食沙蚕、颗粒饲料、鱿鱼的声音信号标签分别记为类别0、1、2。本研究将数据集划分为训练集、验证集和测试集,比例分别为70%、20%和10%。其中训练集和验证集的划分采用等比例抽样,测试集则从每个类别中随机抽取相同数量的音频文件,使各类别在测试集中均衡分布,以更直观地可视化模型预测结果,从而全面评估模型性能。
1.4 基于音频特征向量的传统机器学习分类模型
1.4.1 特征提取
声音信号识别的关键在于提取有效特征。本研究选取的对虾摄食声音信号特征包括:短时平均能量和过零率、基于功率谱的主峰频率和主峰值、平均Mel频率倒谱系数 (Mel frequency cepstrum coefficient, MFCC)、一阶平均MFCC、二阶平均MFCC。短时平均能量和过零率是时域分析中的基本特征,能分别描述声音特性和频谱性质[27]。MFCC特征基于Mel频率标度,能模拟人耳对不同频率的非线性感知,具备抗噪能力[20],并且其一阶和二阶差分能反映信号的动态变化。功率谱显示信号在频率域的能量分布[28],主峰频率揭示信号的周期性成分及能量特性。将上述所提取的特征参数进行归一化,并建立对虾摄食声音信号特征向量X:
$$ X{\mathrm{=}}\left[{x}_{1}{x}_{2}\cdots {x}_{40}\right] $$ (4) 式中:$ {x}_{1} $为短时平均能量;$ {x}_{2} $为短时平均过零率;$ {x}_{3} $为功率谱主峰频率;$ {x}_{4} $为功率谱主峰值;$ {x}_{5} $—${x}_{16} $为平均MFCC;$ {x}_{17}$—${x}_{28} $为一阶平均MFCC;$ {x}_{29}$—${x}_{40} $为二阶平均MFCC。
1.4.2 传统机器学习分类模型
传统机器学习算法通常依赖于人工特征提取,且模型的复杂度较低[29]。本研究基于凡纳滨对虾摄食声音信号的特征向量,采用支持向量机 (Support vector machine, SVM)、随机森林 (Random forest, RF) 和k近邻算法 (k-nearest neighbor, KNN) 传统机器学习方法,建立了3种传统分类模型,对所采集的凡纳滨对虾摄食声音信号进行分类。
此外,为提升模型的泛化能力,本研究在训练前使用Mixup数据生成器对不同数据集样本进行线性组合,生成新样本以扩展数据集,并增强模型的鲁棒性。同时,结合粒子群优化算法 (Particle swarm optimization, PSO) 优化模型的参数组合,进一步提高分类性能。
1.5 基于梅尔频谱图的卷积神经网络模型
1.5.1 梅尔频谱图
梅尔频谱图是一种利用频率尺度来模仿人类感知系统的特征,通过三角形滤波器组将声音的频率转换为梅尔尺度上的频率[21]。
$$ {f}_{{\mathrm{Mel}}}\left(f\right){\mathrm{=}}2\;597\mathrm{l}\mathrm{g}\left(1{\mathrm{+}}\frac{f}{100}\right) $$ (5) 式中:$ {f}_{{\mathrm{Mel}}} $为Mel频率;f为实际频率。梅尔频谱图通过预处理、短时傅里叶变换和梅尔滤波器组实现,其中预处理包含预加重、分帧、加窗,具体步骤如图2所示。本研究采用64个0~48 kHz的梅尔滤波器组,使用窗口大小为1 024样本点数的汉明窗和128样本点数的帧移,生成梅尔频谱图。将提取的梅尔频谱图保存为npz文件以便调用。
1.5.2 卷积神经网络
CNN模型是一种深度学习中的前馈神经网络,擅长自动提取高层特征,适用于处理梅尔频谱图等图像数据。CNN模型的核心结构包括卷积层、池化层和全连接层:卷积层用于提取局部特征,池化层通过下采样降低计算复杂度,而全连接层则负责输出映射。基于CNN模型能有效减少模型参数、适合处理高维数据[30]的优点。本研究建立由多个卷积模块组成的CNN模型,每个模块包含卷积层、批量归一化 (Batch normalization) 和ReLU激活函数,并使用Dropout正则化以降低过拟合风险。模型的结构如图3所示。
该模型使用了与传统机器学习模型一致的Mixup数据生成器,并结合了PSO算法。通过PSO优化模型的学习率和Dropout率,以验证集的损失最小化作为优化目标。在训练前,模型编译时使用交叉熵损失函数 (Cross entropy loss) 来评估预测结果与真实标签之间的差异,并结合Adam优化器进行参数更新,以准确率作为模型的主要评估指标。
为优化训练过程,模型设置了patience值为50的早停机制,当验证集性能不再提升时停止训练,避免过拟合并节省计算资源。同时,利用回调函数ReduceLROnPlateau动态调整学习率,在验证损失无改善时,将学习率动态降低60%。此外,通过模型检查点自动保存验证集表现最优的模型。
1.6 模型预测
本研究将测试集作为预测样本。加载预测数据的音频文件,将其转化为梅尔频谱图和音频特征向量。与此同时,根据模型类型分别导入预先训练好的模型进行预测。随后将预测结果保存为csv文件,以便后续分析模型的准确率等相关指标。最后将用于预测的数据集与预测结果进行比较,并计算模型的整体准确率、各类别的评估模型性能指标 (如精确度、召回率、F1分数等) 以及该指标的平均值。
2. 结果
2.1 对虾摄食信号
凡纳滨对虾摄食沙蚕、颗粒饲料、鱿鱼的声音信号在降噪滤波前后的波形图、频谱图、梅尔频谱图分别见图4—图6。
图 4 摄食沙蚕信号降噪滤波前后波形图、频谱图和梅尔频谱图(上:波形图;中:频谱图;下:梅尔频谱图;左:降噪滤波前;右:降噪滤波后)Figure 4. Waveform, spectrogram and Mel-spectrogram of feeding nereid signal before and after noise reduction filtering (Above: waveform; Middle: spectrogram; Blow: Mel-spectrogram; Left: Before noise reduction filtering; Right: After noise reduction filtering)图 5 摄食颗粒饲料信号降噪滤波前后波形图、频谱图和梅尔频谱图(上:波形图;中:频谱图;下:梅尔频谱图;左:降噪滤波前;右:降噪滤波后)Figure 5. Waveform, spectrogram and Mel-spectrogram of feeding pellets signal before and after noise reduction filtering (Above: waveform; Middle: spectrogram; Blow: Mel-spectrogram; Left: Before noise reduction filtering; Right: After noise reduction filtering)图 6 摄食鱿鱼信号降噪滤波前后波形图、频谱图和梅尔频谱图 (上:波形图;中:频谱图;下:梅尔频谱图;左:降噪滤波前;右:降噪滤波后)Figure 6. Waveform, spectrogram and Mel-spectrogram of feeding squid signal before and after noise reduction filtering (Above: waveform; Middle: spectrogram; Blow: Mel-spectrogram; Left: Before noise reduction filtering; Right: After noise reduction filtering)经过降噪滤波处理后,在摄食3种不同饵料的波形与频谱中,低频区域的噪声明显降低,高频区域的电干扰也得到了有效抑制。同时,特征信号的频率更加突出和清晰,表明处理后的信号能够更准确地反映对虾摄食的声音信号主要特征。
将训练集中每类特征向量中的40个特征参数取平均值并绘制折线图,结果如图7所示。其声音信号特征参数的平均值存在一定差异,短时平均能量 ($ {x}_{1} $)、短时平均过零率 ($ {x}_{2} $)、以及MFCC特征 (如$ {x}_{5} $—$ {x}_{16} $)、某些一阶或二阶差分的MFCC特征 (如$ {x}_{17} 、 {x}_{26} $) 在摄食不同饵料的声音信号中表现出显著性差异,能在模型训练时提供较多的信息。类别0的各特征变化较为平稳,而类别1和类别2则表现出更为复杂的动态变化,尤其是类别2的变化幅度最大。
2.2 基于音频特征向量的对虾摄食声音分类
使用测试集对传统模型进行预测,并输出预测后的csv标签文件,可以与真实标签对比得到预测分类结果,并通过计算得出模型预测的整体性能指标和每个类别的具体表现指标。具体结果如图8和表1所示。
图 8 传统机器学习模型在测试集上的混淆矩阵注:1) 矩阵中的每一个数字表示模型预测结果与实际标签的比较;子图中左上角至右下角的对角线上数字表示预测正确的样本数,而其余数字表示分类错误的样本数;2) 矩阵中颜色的深浅对应色度条中的样本数;该对角线上的颜色越深,表示模型的分类准确率越高;其余位置的颜色越深,表示模型的分类错误较多。Figure 8. Confusion matrix of traditional machine learning models on test setNote: 1) Each number in the matrix represents the comparison between the model's predicted results and the actual labels; the numbers on the diagonal line from the top left corner to the bottom right corner of the subgraph represent the number of samples predicted correctly, while the remaining numbers represent the number of samples classified incorrectly. 2) The depth of the color in the matrix corresponds to the number of samples in the color bar; the darker the color on the diagonal, the higher the classification accuracy of the model; the darker the color of the remaining positions, the more classification errors the model has.表 1 3种分类模型性能评估表Table 1. Three kinds of classification model performance evaluation %模型
Model类别
Category准确率
Accuracy精确度
Precision召回率
RecallF1分数
F1 Score支持向量机
SVM沙蚕(0) 77.78 73.91 70.83 72.34 颗粒饲料(1) 79.31 95.83 86.79 鱿鱼(2) 80.00 66.67 72.73 平均 77.74 77.78 77.29 随机森林
RF沙蚕(0) 65.28 90.00 37.50 52.94 颗粒饲料(1) 52.27 95.83 67.65 鱿鱼(2) 83.33 62.50 71.43 平均 75.20 65.28 64.01 k-最近邻
KNN沙蚕(0) 72.22 77.78 58.33 66.67 颗粒饲料(1) 64.71 91.67 75.86 鱿鱼(2) 80.00 66.67 72.73 平均 74.16 72.22 71.75 注:表中分类编号0、1、2是在建立模型前对3种饵料的标签编码,分别对应凡纳滨对虾摄食时的3种饵料。 Note: The classification labels 0, 1, and 2 in the table represent the encoded identifiers assigned to the three kinds of diets before model establishment, corresponding to the three kinds of diets fed to L. vannamei during feeding, respectively. 结果表明:在3种传统分类模型中,SVM模型表现最佳,其整体准确率达到77.78%。此外,3种模型在识别类别1时均具有较高的召回率,显示出对该类别特征的良好分类能力;然而,对类别0、类别2的分类表现相对较差,导致整体模型的准确率偏低。
2.3 基于梅尔频谱图的对虾摄食声音分类
以降噪滤波处理的信号作为数据集,按1.3节的方法划分数据集。随后加载音频数据并转换为梅尔频谱图,将其保存为npz文件以便直接使用。最后得到CNN模型在训练过程中训练集和验证集的损失和准确率,如图9所示。
结果表明:训练集和验证集的损失逐步下降并趋于平稳,反映出模型参数优化效果良好且收敛性较佳;训练集的准确率快速上升并在接近98%时趋于稳定,同时验证集的准确率在90%左右稳定;训练集与验证集的损失接近且较低,准确率差距较小,表明模型没有过拟合;验证集的损失和准确率收敛性较佳且稳定,反映出模型对新鲜样本的泛化能力较好。
使用测试集对该模型进一步预测,并输出预测后的csv标签文件,与真实标签进行对比,可以得到预测分类结果、模型预测的整体性能值和每个类别的具体表现值。结果如表2和图10所示。
表 2 CNN分类模型性能评估表Table 2. CNN classification model performance evaluation% 类别
Category准确率
Accuracy精确度
Precision召回率
RecallF1分数
F1 Score沙蚕 Nereid (0) 91.67 87.50 87.50 87.50 颗粒饲料 Pellets (1) 92.31 100.00 96.00 鱿鱼 Squid (2) 95.45 87.50 91.30 平均Average 91.75 91.67 91.60 注:分类编号0、1、2是在建立模型前对3种饵料的标签编码,分别对应凡纳滨对虾摄食时的3种饵料。 Note: The classification labels 0, 1, and 2 in the table represent the encoded identifiers assigned to the three kinds of diets before model establishment, corresponding to the three kinds of diets fed to L. vannamei during feeding, respectively. 结果表明:CNN模型分类效果优异,整体准确率达到了91.67%,且平均精确度、召回率和F1分数均超过91%。特别是对类别1的分类效果最佳,精确度为92.31%,召回率为100%,F1分数为96.00%,反映出其声音特征较为明显。尽管类别2的召回率略低于类别1,但精确度达到95.45%,F1分数达到91.30%,仍表现出良好的分类能力。相较而言,模型在类别0的分类上表现较为逊色,精确度、召回率和F1分数均为87.50%,反映出该类声音的特征性较弱。在精确度方面,对类别2的识别更具优势;在召回率和F1分数方面,对类别1的识别更具优势。虽然对类别0的识别在上述3个指标方面低于其他类别,但从整体指标来看,其优于上述3个传统机器学习模型。所以,CNN模型对类别0、1、2的分类效果均优于传统机器学习模型。
3. 讨论
本研究结果显示,基于梅尔频谱图的CNN模型更具优势,相较于传统机器学习模型中表现最好的SVM模型,其准确率提高了约14%,且在各类别上均有良好的分类表现,特别是在颗粒饲料的分类任务中,CNN模型表现稳定且精确度高。2类模型在识别类别1时的召回率均超过90%,表明类别1的声音信号相较于类别0和2更易于识别。这种不同类别的识别差异可能与凡纳滨对虾摄食颗粒饲料发声信号更稳定有关。
凡纳滨对虾在摄食时发声的原因是在于其大颚末端钙化,导致在摄食活动中大颚相互碰撞和摩擦产生“噼啪”声[31]。当摄食较硬的颗粒饲料时,这些碰撞会产生清晰而稳定的脉冲信号,使模型能够更好地学习和识别这种稳定的特征,以提高其召回率;而在摄食软体饵料时,由于切齿无法直接切割,对虾常需依赖步足和颚足的辅助撕扯,这会导致大颚频繁碰撞,形成更为连续和复杂的高频脉冲信号[32]。这种复杂的声音信号可能导致特征混淆,特别是在类别0和类别2中,当包含与类别1相似的脉冲特征时,模型可能将它们误识别为类别1。此外,沙蚕和鱿鱼均为软体饵料,摄食声音信号可能会在某些音频特征上存在重叠,使得模型在这两类之间的区分较为困难。相比之下,类别1的声音信号具有清晰显著的脉冲特征,所以模型在识别时误差较小。尽管摄食不同饵料的声音信号在细节上有所区别,但其发声本质均源于大颚的碰撞和摩擦。因此,这些声音信号具有相似的基本特征,但也包含可区分的差异,准确区分这些信号需要进一步细化分类任务。
CNN模型通过梅尔频谱图捕获了更丰富的时频特征,增强了特征的可辨识性,有效学习并表达数据中的复杂模式和规律,能够自动提取对分类任务最有效的特征。在处理凡纳滨对虾对不同饵料摄食行为的复杂分类任务时,本研究的CNN模型不仅在类别1的识别上表现出色,而且在对较为复杂的类别0和2进行分类时,能更精准地对相似信号。特别是经过PSO算法优化模型结构和参数后,该CNN模型在分类性能上超越了其他应用于水生生物声音信号的模型[22,33-34]。因此,本研究的CNN模型适合用于多种饵料混合投喂后的声音信号分类任务。
尽管本研究主要关注单一饵料声音信号的分类,但所建立的模型在混合饵料管理上也显示出潜在的应用价值。有研究表明,凡纳滨对虾在摄食颗粒状饲料时会一次性抓取并咀嚼多颗饲料,而在摄食如鱿鱼或沙蚕等软体饵料时,则倾向于撕成小块后逐步吞食[35]。这种摄食行为的差异意味着对虾在进食时,口中不会同时含有颗粒饲料和软体饵料,因此其摄食声音信号仅来源于单一饵料。此外,混合饵料更符合凡纳滨对虾的生长需求,且对虾更偏好活体饵料。由于活体饵料具有更高的能量转换效率,合理的饵料配比能够提升养殖效率,并降低水质污染风险[14]。在商业育苗中,通过精准的饵料管理[36-37],可以优化饵料营养配比,并提高养殖效率。因此,本研究建立的CNN模型可用于探索混合饵料比例与摄食声音信号之间的关系,并为对虾摄食不同饵料的声音信号提供精确分类,进而辅助养殖现场中混合饵料的精准管理。
此外,由于对虾摄食不同粒径颗粒饲料的声音信号特征相似[7,17],本研究在对不同饵料的摄食声音信号进行特征提取和分类时,主要关注不同饵料带来的声音信号差异,而未特别控制颗粒饲料的粒径或长度。为提升模型在实际养殖场景中的适用性,未来研究可考虑引入混合饵料同步投喂,或测试其他类型的饵料,如浮游植物和死虾等[38]。此外,还应关注对虾体长对摄食声音信号的影响[39],以进一步验证模型的适用性和鲁棒性。本研究通过与3种传统建模方法的比较,证实了CNN模型在对虾摄食声音信号分类方面的优势。未来研究还需进一步探讨CNN模型在不同养殖密度和实际对虾养殖环境中的表现。
-
图 4 摄食沙蚕信号降噪滤波前后波形图、频谱图和梅尔频谱图(上:波形图;中:频谱图;下:梅尔频谱图;左:降噪滤波前;右:降噪滤波后)
Figure 4. Waveform, spectrogram and Mel-spectrogram of feeding nereid signal before and after noise reduction filtering (Above: waveform; Middle: spectrogram; Blow: Mel-spectrogram; Left: Before noise reduction filtering; Right: After noise reduction filtering)
图 5 摄食颗粒饲料信号降噪滤波前后波形图、频谱图和梅尔频谱图(上:波形图;中:频谱图;下:梅尔频谱图;左:降噪滤波前;右:降噪滤波后)
Figure 5. Waveform, spectrogram and Mel-spectrogram of feeding pellets signal before and after noise reduction filtering (Above: waveform; Middle: spectrogram; Blow: Mel-spectrogram; Left: Before noise reduction filtering; Right: After noise reduction filtering)
图 6 摄食鱿鱼信号降噪滤波前后波形图、频谱图和梅尔频谱图 (上:波形图;中:频谱图;下:梅尔频谱图;左:降噪滤波前;右:降噪滤波后)
Figure 6. Waveform, spectrogram and Mel-spectrogram of feeding squid signal before and after noise reduction filtering (Above: waveform; Middle: spectrogram; Blow: Mel-spectrogram; Left: Before noise reduction filtering; Right: After noise reduction filtering)
图 8 传统机器学习模型在测试集上的混淆矩阵
注:1) 矩阵中的每一个数字表示模型预测结果与实际标签的比较;子图中左上角至右下角的对角线上数字表示预测正确的样本数,而其余数字表示分类错误的样本数;2) 矩阵中颜色的深浅对应色度条中的样本数;该对角线上的颜色越深,表示模型的分类准确率越高;其余位置的颜色越深,表示模型的分类错误较多。
Figure 8. Confusion matrix of traditional machine learning models on test set
Note: 1) Each number in the matrix represents the comparison between the model's predicted results and the actual labels; the numbers on the diagonal line from the top left corner to the bottom right corner of the subgraph represent the number of samples predicted correctly, while the remaining numbers represent the number of samples classified incorrectly. 2) The depth of the color in the matrix corresponds to the number of samples in the color bar; the darker the color on the diagonal, the higher the classification accuracy of the model; the darker the color of the remaining positions, the more classification errors the model has.
表 1 3种分类模型性能评估表
Table 1 Three kinds of classification model performance evaluation %
模型
Model类别
Category准确率
Accuracy精确度
Precision召回率
RecallF1分数
F1 Score支持向量机
SVM沙蚕(0) 77.78 73.91 70.83 72.34 颗粒饲料(1) 79.31 95.83 86.79 鱿鱼(2) 80.00 66.67 72.73 平均 77.74 77.78 77.29 随机森林
RF沙蚕(0) 65.28 90.00 37.50 52.94 颗粒饲料(1) 52.27 95.83 67.65 鱿鱼(2) 83.33 62.50 71.43 平均 75.20 65.28 64.01 k-最近邻
KNN沙蚕(0) 72.22 77.78 58.33 66.67 颗粒饲料(1) 64.71 91.67 75.86 鱿鱼(2) 80.00 66.67 72.73 平均 74.16 72.22 71.75 注:表中分类编号0、1、2是在建立模型前对3种饵料的标签编码,分别对应凡纳滨对虾摄食时的3种饵料。 Note: The classification labels 0, 1, and 2 in the table represent the encoded identifiers assigned to the three kinds of diets before model establishment, corresponding to the three kinds of diets fed to L. vannamei during feeding, respectively. 表 2 CNN分类模型性能评估表
Table 2 CNN classification model performance evaluation
% 类别
Category准确率
Accuracy精确度
Precision召回率
RecallF1分数
F1 Score沙蚕 Nereid (0) 91.67 87.50 87.50 87.50 颗粒饲料 Pellets (1) 92.31 100.00 96.00 鱿鱼 Squid (2) 95.45 87.50 91.30 平均Average 91.75 91.67 91.60 注:分类编号0、1、2是在建立模型前对3种饵料的标签编码,分别对应凡纳滨对虾摄食时的3种饵料。 Note: The classification labels 0, 1, and 2 in the table represent the encoded identifiers assigned to the three kinds of diets before model establishment, corresponding to the three kinds of diets fed to L. vannamei during feeding, respectively. -
[1] FAO. The state of world fisheries and aquaculture 2022: towards blue transformation[M]. Rome: FAO, 2022: 44.
[2] EMERENCIANO M G C, ROMBENSO A N, VIEIRA F D N, et al. Intensification of penaeid shrimp culture: an applied review of advances in production systems, nutrition and breeding[J]. Animals, 2022, 12(3): 236. doi: 10.3390/ani12030236
[3] LI D L, DU Z Z, WANG Q, et al. Recent advances in acoustic technology for aquaculture: a review[J]. Rev Aquac, 2024, 16(1): 357-381. doi: 10.1111/raq.12842
[4] LI D L, LIU C, SONG Z Y, et al. Automatic monitoring of relevant behaviors for crustacean production in aquaculture: a review[J]. Animals, 2021, 11(9): 2709. doi: 10.3390/ani11092709
[5] LAMMERS M O, MUNGER L M. From shrimp to whales: biological applications of passive acoustic monitoring on a remote Pacific coral reef[M]//AU W W L, LAMMERS M O. Listening in the ocean. New York: Springer, 2016: 61-81.
[6] BADOR R, BLYTH P, DODD R. Acoustic control improves feeding productivity at shrimp farms[J]. Glob Aquac Advocate, 2013, 16(6): 77-78.
[7] PEIXOTO S, SOARES R, DAVIS D A. An acoustic based approach to evaluate the effect of different diet lengths on feeding behavior of Litopenaeus vannamei[J]. Aquac Eng, 2020, 91: 102114. doi: 10.1016/j.aquaeng.2020.102114
[8] SOARES R, PEIXOTO S, GALKANDA-ARACHCHIGE H S C, et al. Growth performance and acoustic feeding behavior of two size classes of Litopenaeus vannamei fed pelleted and extruded diets[J]. Aquac Int, 2021, 29(1): 399-415. doi: 10.1007/s10499-020-00636-8
[9] JAYASEELAN B, ADIKESAVAN P, CHELLADURAI S. A comparative study on the nutritional value of three polychaete species used in shrimp aquaculture[J]. Sustain Agri Food Environ Res, 2021, 9(4): 526-538.
[10] BRAUER J M E, LEYVA J S, ALVARADO L B, et al. Effect of dietary protein on muscle collagen, collagenase and shear force of farmed white shrimp (Litopenaeus vannamei)[J]. Eur Food Res Technol, 2003, 217: 277-280. doi: 10.1007/s00217-003-0739-7
[11] ANANTHI P, SANTHANAM P, NANDAKUMAR R, et al. Production and utilization of marine copepods as live feed for larval rearing of tiger shrimp Penaeus monodon with special emphasis on astaxanthin enhancement[J]. Ind J Nat Sci, 2011, 11(8): 494-503.
[12] BAEZA-ROJANO E, HACHERO-CRUZADO I, GUERRA-GARCÍA J M. Nutritional analysis of freshwater and marine amphipods from the Strait of Gibraltar and potential aquaculture applications[J]. J Sea Res, 2014, 85: 29-36. doi: 10.1016/j.seares.2013.09.007
[13] VELU C S, MUNUSWAMY N. Composition and nutritional efficacy of adult fairy shrimp Streptocephalus dichotomus as live feed[J]. Food Chem, 2007, 100(4): 1435-1442. doi: 10.1016/j.foodchem.2005.12.017
[14] XUE S Y, DING J K, LI J Q, et al. Effects of live, artificial and mixed feeds on the growth and energy budget of Penaeus vannamei[J]. Aquac Rep, 2021, 19: 100634. doi: 10.1016/j.aqrep.2021.100634
[15] 嵇爱华. 南美白对虾养殖过程中提高饵料利用率的措施[J]. 水产养殖, 2012, 33(5): 48. doi: 10.3969/j.issn.1004-2091.2012.05.023 [16] 王秀秀. 南美白对虾摄食发声信号的变化规律与特征研究[D]. 上海: 上海海洋大学, 2023: 9-36. [17] 曹正良, 沈梦庭, 李钊丞, 等. 摄食不同粒径颗粒饲料的凡纳滨对虾发声信号特征[J]. 南方水产科学, 2022, 18(6): 26-34. doi: 10.12131/20220080 [18] SÁNCHEZ-GENDRIZ I, PULGAR-PANTALEON E M, HAMILTON S, et al. Python-based acoustic detection of Penaeus vannamei feeding behavior[J]. Aquaculture, 2025, 595(2): 741645.
[19] MA J K, CHEN K Y, SU W, et al. A Litopenaeus vannamei status classification method based on MRANet[C]//OCEANS 2024-Singapore. Singapore: IEEE, 2024: 1-6.
[20] WEI M C, CHEN K Y, LIN Y T, et al. Recognition of behavior state of Penaeus vannamei based on passive acoustic technology[J]. Front Mar Sci, 2022, 9: 973284. doi: 10.3389/fmars.2022.973284
[21] DU Z Z, CUI M, WANG Q, et al. Feeding intensity assessment of aquaculture fish using Mel Spectrogram and deep learning algorithms[J]. Aquac Eng, 2023, 102: 102345. doi: 10.1016/j.aquaeng.2023.102345
[22] DU Z Z, CUI M, XU X B, et al. Harnessing multimodal data fusion to advance accurate identification of fish feeding intensity[J]. Biosyst Eng, 2024, 246: 135-149. doi: 10.1016/j.biosystemseng.2024.08.001
[23] WHITE E L, WHITE P R, BULL J M, et al. More than a whistle: automated detection of marine sound sources with a convolutional neural network[J]. Front Mar Sci, 2022, 9: 879145. doi: 10.3389/fmars.2022.879145
[24] MERCHAN F, GUERRA A, POVEDA H, et al. Bioacoustic classification of antillean manatee vocalization spectrograms using deep convolutional neural networks[J]. Appl Sci, 2020, 10(9): 3286. doi: 10.3390/app10093286
[25] POKKULURI K S, KHANG A, USHA DEVI N S S S N. Enhancing aquaculture efficiency: automated feed management through deep learning[M]//KHANG A. Agriculture and aquaculture applications of biosensors and bioelectronics. Hershey: IGI Global, 2024: 405-415.
[26] 宋知用. Matlab 语音信号分析与合成[M]. 北京: 北京航空航天大学出版社, 2017: 184-201. [27] MARCK A, VORTMAN Y, KOLODNY O, et al. Identification, analysis and characterization of base units of bird vocal communication: the white spectacled bulbul (Pycnonotus xanthopygos) as a case study[J]. Front Behav Neurosci, 2021, 15: 812939.
[28] SMITH D V, SHAHRIAR Md S. A context aware sound classifier applied to prawn feed monitoring and energy disaggregation[J]. Knowledge-Based Syst, 2013, 52: 21-31. doi: 10.1016/j.knosys.2013.05.007
[29] MOUY X, ARCHER S K, DOSSO S, et al. Automatic detection of unidentified fish sounds: a comparison of traditional machine learning with deep learning[J]. Front Mar Sci, 2024, 5: 1439995.
[30] ZHOU Q, SHAN J H, DING W L, et al. Cough recognition based on Mel-spectrogram and convolutional neural network[J]. Front Robot AI, 2021, 8: 580080. doi: 10.3389/frobt.2021.580080
[31] SILVA J F, HAMILTON S, ROCHA J V, et al. Acoustic characterization of feeding activity of Litopenaeus vannamei in captivity[J]. Aquaculture, 2019, 501: 76-81. doi: 10.1016/j.aquaculture.2018.11.013
[32] ZHU B S, WANG Z H, LI Y S, et al. Morphological and structural analysis of Penaeus vannamei mandibles and an attempt at real-time cannibalism monitoring based on passive acoustics[J]. Aquac Rep, 2024, 37: 102199. doi: 10.1016/j.aqrep.2024.102199
[33] LU Z Q, ZHANG B, SUN L, et al. Whale-call classification based on transfer learning and ensemble method[C]//2020 IEEE 20th International Conference on Communication Technology (ICCT). Nanning: IEEE, 2020: 1494-1497.
[34] YANG H H, HUANG Y N, LIU Y Q. Spatial attention deep convolution neural network for call recognition of marine mammal[C]//Proceedings of 2022 International Conference on Autonomous Unmanned Systems (ICAUS 2022). Singapore: Springer, 2022: 2725-2733.
[35] KAWAMURA G, BAGARINAO T U, SENIMAN N S, et al. Comparative morphology and function of feeding appendages in food intake behaviour of the whiteleg shrimp, Litopenaeus vannamei, and the giant freshwater prawn, Macrobrachium rosenbergii[J]. Borneo J Mar Sci Aquac, 2018, 2: 26-39. doi: 10.51200/bjomsa.v2i0.1263
[36] EMERENCIANO M, CUZON G, ARÉVALO M, et al. Effect of short-term fresh food supplementation on reproductive performance, biochemical composition, and fatty acid profile of Litopenaeus vannamei (Boone) reared under biofloc conditions[J]. Aquac Int, 2013, 21(5): 987-1007. doi: 10.1007/s10499-012-9607-4
[37] KANNAN D, THIRUNAVUKKARASU P, JAGADEESAN K, et al. Procedure for maturation and spawning of imported shrimp Litopenaeus vannamei in commercial hatchery, south east coast of India[J]. Fish Aquac J, 2015, 6(4): 146-151.
[38] DAS P, MANDAL S, BHAGABATI S, et al. Important live food organisms and their role in aquaculture[J]. Front Aquac, 2012, 5(4): 69-86.
[39] HAMILTON S, de MOURA G J B, FILHO F C, et al. Size matters: variability in the acoustic parameters during feeding activity of Penaeus vannamei in different size classes[J]. Aquaculture, 2024, 587: 740843. doi: 10.1016/j.aquaculture.2024.740843