A Comparative Study of Pre-trained Audio and Speech Models for Heart Sound Detection (Englisch)

Duan, Yuxin / Yang, Chenyu / Zhao, Zihan / Jiang, Yiyang / Wang, Yanfeng / Wang, Yu

In: Man-Machine Speech Communication : 18th National Conference, NCMMSC 2023, Suzhou, China, December 8–10, 2023, Proceedings ; Kapitel: 25 ; 287-301 ; 2024

ISBN:

978-981-97-0601-3, 978-981-97-0600-6

ISSN:

1865-0937, 1865-0929

Aufsatz/Kapitel (Buch) / Elektronische Ressource

Wie erhalte ich diesen Titel?

Zugriff prüfen

Download

Kommerziell Vergütung an den Verlag: 29,95 € Grundgebühr: 4,00 € Gesamtpreis: 33,95 €

Akademisch Vergütung an den Verlag: 15,00 € Grundgebühr: 2,00 € Gesamtpreis: 17,00 €

Exportieren, teilen und zitieren

Cardiovascular disease screening is critically anchored in heart sound auscultation. As deep learning methodologies advance, the impetus toward automating heart sound detection grows, aiming to curtail reliance on specialized clinicians. However, the compilation and annotation of expansive high-fidelity datasets present challenges, attributing to both necessary expertise and environmental complexities. In this landscape, transfer learning, harnessing extensive pre-trained models, emerges as a potential solution. In our investigation, we rigorously assessed established audio and speech models—PANNs, SSAST, BEATs, HuBERT, and WavLM—using the PhysioNet/CinC 2016 dataset. Preliminary results showcased the pre-tuning BEATs model’s superior performance, achieving an accuracy of approximately 90%. However, following optimization procedures, the PANN-V1 model surpassed its counterparts, registering an accuracy of 94.02%. Our study further delved into the models’ robustness against various noise paradigms. Pink noise was observed to be more disruptive than white noise, with the PANN-V2 model demonstrating notable resilience across both noise spectra. Contrarily, impulse noise exhibited a minimal perturbative effect. In a more pragmatic setting, we evaluated the models using the CirCor DigiScope Dataset, emphasizing specific demographics such as pediatric and antenatal populations. It was discerned that these particular demographics, coupled with ambient clinical noise, can indeed modulate model performance. Within this context, the BEATs model retained commendable proficiency, achieving a 65.33% accuracy. This study provides insights into model selection and fine-tuning, fostering more informed decision in the selection of pre-trained models for heart sound processing and analysis.

Titel:

A Comparative Study of Pre-trained Audio and Speech Models for Heart Sound Detection
Weitere Titelangaben:

Communic.Comp.Inf.Science
Beteiligte:

Jia, Jia ( Herausgeber:in ) / Ling, Zhenhua ( Herausgeber:in ) / Chen, Xie ( Herausgeber:in ) / Li, Ya ( Herausgeber:in ) / Zhang, Zixing ( Herausgeber:in ) / Duan, Yuxin ( Autor:in ) / Yang, Chenyu ( Autor:in ) / Zhao, Zihan ( Autor:in ) / Jiang, Yiyang ( Autor:in ) / Wang, Yanfeng ( Autor:in )
Kongress:

National Conference on Man-Machine Speech Communication ; 2023 ; Suzhou, China
Erschienen in:

Man-Machine Speech Communication : 18th National Conference, NCMMSC 2023, Suzhou, China, December 8–10, 2023, Proceedings ; Kapitel: 25 ; 287-301

Communications in Computer and Information Science ; 2006 ; 287-301
Verlag:

Springer Nature Singapore

Erscheinungsort:

Singapore
Erscheinungsdatum:

15.02.2024
Format / Umfang:

15 pages
ISBN:

978-981-97-0601-3, 978-981-97-0600-6
ISSN:

1865-0937, 1865-0929
DOI:

https://doi.org/10.1007/978-981-97-0601-3_25
Medientyp:

Aufsatz/Kapitel (Buch)
Format:

Elektronische Ressource
Sprache:

Englisch
Schlagwörter:

Heart sound detection , Pre-trained models , Noise resistance

Computer Science , Image Processing and Computer Vision , Natural Language Processing (NLP) , Signal, Image and Speech Processing , Artificial Intelligence , User Interfaces and Human Computer Interaction
Datenquelle:

Springer Verlag

Inhaltsverzeichnis E-Book

Die Inhaltsverzeichnisse werden automatisch erzeugt und basieren auf den im Index des TIB-Portals verfügbaren Einzelnachweisen der enthaltenen Beiträge. Die Anzeige der Inhaltsverzeichnisse kann daher unvollständig oder lückenhaft sein.

1: Ultra-Low Complexity Residue Echo and Noise Suppression Based on Recurrent Neural Network
Zhou, Jianquan / Gao, Yi / Zhang, Siyu et al. | 2024
Elektronische Ausgabe
2: Semi-End-to-End Nested Named Entity Recognition from Speech
Zhang, Min / Qiao, XiaoSong / Zhao, Yanqing / Su, Chang / Li, Yuang / Li, Yinglu / Piao, Mengyao / Peng, Song / Tao, Shimin / Yang, Hao et al. | 2024
Elektronische Ausgabe
3: A Lightweight Music Source Separation Model with Graph Convolution Network
Zhu, Mengying / Wang, Liusong / Hu, Ying et al. | 2024
Elektronische Ausgabe
4: Joint Time-Domain and Frequency-Domain Progressive Learning for Single-Channel Speech Enhancement and Recognition
Zou, Gongzhen / Du, Jun / Niu, Shutong / Chen, Hang / Ren, Yuling / Li, Qinglong / Liu, Ruibo / Lee, Chin-Hui et al. | 2024
Elektronische Ausgabe
5: A Study on Domain Adaptation for Audio-Visual Speech Enhancement
Wang, Chenxi / Chen, Hang / Du, Jun / Zhang, Chenyue / Ren, Yuling / Li, Qinglong / Liu, Ruibo / Lee, Chin-Hui et al. | 2024
Elektronische Ausgabe
6: APNet2: High-Quality and High-Efficiency Neural Vocoder with Direct Prediction of Amplitude and Phase Spectra
Du, Hui-Peng / Lu, Ye-Xin / Ai, Yang / Ling, Zhen-Hua et al. | 2024
Elektronische Ausgabe
7: Within- and Between-Class Sample Interpolation Based Supervised Metric Learning for Speaker Verification
Zhang, Jian-Tao / Song, Hao-Yu / Guo, Wu / Song, Yan / Dai, Li-Rong et al. | 2024
Elektronische Ausgabe
8: Joint Speech and Noise Estimation Using SNR-Adaptive Target Learning for Deep-Learning-Based Speech Enhancement
Li, Xiaoran / Guo, Zilu / Du, Jun / Lee, Chin-Hui / Gao, Yu / Zhang, Wenbin et al. | 2024
Elektronische Ausgabe
9: Data Augmentation by Finite Element Analysis for Enhanced Machine Anomalous Sound Detection
Zhang, Zhixian / Zhang, Yucong / Li, Ming et al. | 2024
Elektronische Ausgabe
10: A Fast Sampling Method in Diffusion-Based Dance Generation Models
Guo, Puyuan / Han, Yichen / Gao, Yingming / Li, Ya et al. | 2024
Elektronische Ausgabe
11: End-to-End Streaming Customizable Keyword Spotting Based on Text-Adaptive Neural Search
Yang, Baochen / Guo, Jiaqi / Li, Haoyu / Xi, Yu / Zhuo, Qing / Yu, Kai et al. | 2024
Elektronische Ausgabe
12: The Production of Successive Addition Boundary Tone in Mandarin Preschoolers
Li, Aĳun / Gao, Jun / Wang, Zhiwei et al. | 2024
Elektronische Ausgabe
13: Emotional Support Dialog System Through Recursive Interactions Among Large Language Models
Chen, Keqi / Lian, Huijun / Gao, Yingming / Li, Ya et al. | 2024
Elektronische Ausgabe
14: Task-Adaptive Generative Adversarial Network Based Speech Dereverberation for Robust Speech Recognition
Liu, Ji / Li, Nan / Ge, Meng / Fu, Yanjie / Wang, Longbiao / Dang, Jianwu et al. | 2024
Elektronische Ausgabe
15: Real-Time Automotive Engine Sound Simulation with Deep Neural Network
Li, Hao / Wang, Weiqing / Li, Ming et al. | 2024
Elektronische Ausgabe
16: A Framework Combining Separate and Joint Training for Neural Vocoder-Based Monaural Speech Enhancement
Pan, Qiaoyi / Jiang, Wenbing / Zhuo, Qing / Yu, Kai et al. | 2024
Elektronische Ausgabe
17: Accent-VITS: Accent Transfer for End-to-End TTS
Ma, Linhan / Zhang, Yongmao / Zhu, Xinfa / Lei, Yi / Ning, Ziqian / Zhu, Pengcheng / Xie, Lei et al. | 2024
Elektronische Ausgabe
18: Multi-branch Network with Cross-Domain Feature Fusion for Anomalous Sound Detection
Fang, Wenjie / Fan, Xin / Hu, Ying et al. | 2024
Elektronische Ausgabe
19: A Packet Loss Concealment Method Based on the Demucs Network Structure
Li, Wenwen / Bao, Changchun et al. | 2024
Elektronische Ausgabe
20: Improving Speech Perceptual Quality and Intelligibility Through Sub-band Temporal Envelope Characteristics
Wu, Ruilin / Huang, Zhihua / Song, Jingyi / Liang, Xiaoming et al. | 2024
Elektronische Ausgabe
21: Adaptive Deep Graph Convolutional Network for Dialogical Speech Emotion Recognition
Liu, Jiaxing / Wu, Sheng / Wang, Longbiao / Dang, Jianwu et al. | 2024
Elektronische Ausgabe
22: Iterative Noisy-Target Approach: Speech Enhancement Without Clean Speech
Zhang, Yifan / Jiang, Wenbin / Zhuo, Qing / Yu, Kai et al. | 2024
Elektronische Ausgabe
23: Joint Training or Not: An Exploration of Pre-trained Speech Models in Audio-Visual Speaker Diarization
Zhao, Huan / Zhang, Li / Li, Yue / Wang, Yannan / Wang, Hongji / Rao, Wei / Wang, Qing / Xie, Lei et al. | 2024
Elektronische Ausgabe
24: Zero-Shot Singing Voice Conversion Based on Timbre Space Modeling and Excitation Signal Control
Jiang, Yuan / Chen, Yan-Nian / Liu, Li-Juan / Hu, Ya-Jun / Fang, Xin / Ling, Zhen-Hua et al. | 2024
Elektronische Ausgabe
25: A Comparative Study of Pre-trained Audio and Speech Models for Heart Sound Detection
Duan, Yuxin / Yang, Chenyu / Zhao, Zihan / Jiang, Yiyang / Wang, Yanfeng / Wang, Yu et al. | 2024
Elektronische Ausgabe
26: CAM-GUI: A Conversational Assistant on Mobile GUI
Zhu, Zichen / Sun, Liangtai / Yang, Jingkai / Peng, Yifan / Zou, Weilin / Li, Ziyuan / Li, Wutao / Chen, Lu / Ma, Yingzi / Zhang, Danyang et al. | 2024
Elektronische Ausgabe
27: A Pilot Study on the Prosodic Factors Influencing Voice Attractiveness of AI Speech
Wang, Yihui / Lu, Haocheng / Wang, Gaowu et al. | 2024
Elektronische Ausgabe
28: The DKU-MSXF Diarization System for the VoxCeleb Speaker Recognition Challenge 2023
Cheng, Ming / Wang, Weiqing / Qin, Xiaoyi / Lin, Yuke / Jiang, Ning / Zhao, Guoqing / Li, Ming et al. | 2024
Elektronische Ausgabe
29: Chinese EFL Learners’ Auditory and Visual Perception of English Statement and Question Intonations: The Effect of Lexical Stress
Xu, Qiunan / Tang, Ping et al. | 2024
Elektronische Ausgabe
30: An Improved System for Partially Fake Audio Detection Using Pre-trained Model
Zhang, Jianqian / Liu, Hanyue / Deng, Mengyuan / Wang, Jing / Sun, Yi / Xu, Liang / Li, Jiahao et al. | 2024
Elektronische Ausgabe
31: Leveraging Synthetic Speech for CIF-Based Customized Keyword Spotting
Liu, Shuiyun / Zhang, Ao / Huang, Kaixun / Xie, Lei et al. | 2024
Elektronische Ausgabe

Wie erhalte ich diesen Titel?

Zugriff prüfen

Download

Kommerziell Vergütung an den Verlag: 29,95 € Grundgebühr: 4,00 € Gesamtpreis: 33,95 €

Akademisch Vergütung an den Verlag: 15,00 € Grundgebühr: 2,00 € Gesamtpreis: 17,00 €

Schnellzugriff

Ausleihen & Bestellen

Schnellzugriff

Recherchieren & Entdecken

Schnellzugriff

Lernen & Arbeiten

Schnellzugriff

Publizieren & Archivieren

Schnellzugriff

Über die TIB

Schnellzugriff

Forschung & Entwicklung

A Comparative Study of Pre-trained Audio and Speech Models for Heart Sound Detection (Englisch)

Wie erhalte ich diesen Titel?

Exportieren, teilen und zitieren

Mehr Angaben zu diesem Treffer

Inhaltsverzeichnis

Inhaltsverzeichnis E-Book

Ähnliche Titel

Wie erhalte ich diesen Titel?

Exportieren, teilen und zitieren