Efficient Feature Extraction for Non-Maximum Suppression in Visual Person Detection (English)

Symeonidis, Charalampos / Mademlis, Ioannis / Pitas, Ioannis / Nikolaidis, Nikos

In: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) ; 1-5 ; 2023

ISBN:

978-1-7281-6327-7

ISSN:

2379-190X

Conference paper / Electronic Resource

How to get this title?

Check access

Download

Commercial Copyright fee: €30.47 Basic fee: €4.00 Total price: €34.47

Academic Copyright fee: €30.47 Basic fee: €2.00 Total price: €32.47

Export, share and cite

Non-Maximum Suppression (NMS) is a post-processing step in almost every visual object detector, tasked with rapidly pruning the number of overlapping detected candidate rectangular Regions-of-Interest (RoIs) and replacing them with a single, more spatially accurate detection (in pixel coordinates). The common Greedy NMS algorithm suffers from drawbacks, due to the need for careful manual tuning. In visual person detection, most NMS methods typically suffer when analyzing crowded scenes with high levels of in-between occlusions. This paper proposes a modification on a deep neural architecture for NMS, suitable for such cases and capable of efficiently cooperating with recent neural object detectors. The method approaches the NMS problem as a rescoring task, aiming to ideally assign precisely one detection per object. The proposed modification exploits the extraction of RoI representations, semantically capturing the region’s visual appearance, from information-rich feature maps computed by the detector’s intermediate layers. Experimental evaluation on two common public person detection datasets shows improved accuracy against competing methods, with acceptable inference speed.

Title:

Efficient Feature Extraction for Non-Maximum Suppression in Visual Person Detection
Contributors:

Symeonidis, Charalampos ( author ) / Mademlis, Ioannis ( author ) / Pitas, Ioannis ( author ) / Nikolaidis, Nikos ( author )
Published in:

ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) ; 1-5
Publisher:

IEEE

Publication date:

2023-06-04
Size:

1076591 byte
ISBN:

978-1-7281-6327-7
ISSN:

2379-190X
DOI:

https://doi.org/10.1109/ICASSP49357.2023.10095074
Type of media:

Conference paper
Type of material:

Electronic Resource
Language:

English
Source:

IEEE

Table of contents conference proceedings

The tables of contents are generated automatically and are based on the data records of the individual contributions available in the index of the TIB portal. The display of the Tables of Contents may therefore be incomplete.

1: Learning ASR Pathways: A Sparse Multilingual ASR Model
Yang, Mu / Tjandra, Andros / Liu, Chunxi / Zhang, David / Le, Duc / Kalinli, Ozlem et al. | 2023
digital version
1: Real-Time Target Sound Extraction
Veluri, Bandhav / Chan, Justin / Itani, Malek / Chen, Tuochao / Yoshioka, Takuya / Gollakota, Shyamnath et al. | 2023
digital version
1: Multi-Scale Receptive Field Graph Model for Emotion Recognition in Conversations
Wei, Jie / Hu, Guanyu / Tuan, Luu Anh / Yang, Xinyu / Zhu, Wenjing et al. | 2023
digital version
1: Twitter Stance Detection via Neural Production Systems
Zhang, Bowen / Ding, Daijun / Xu, Guangning / Guo, Jinjin / Huang, Zhichao / Huang, Xu et al. | 2023
digital version
1: Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation
Bhandari, Neel / Chen, Pin-Yu et al. | 2023
digital version
1: LDTSF: A Label-Decoupling Teacher-Student Framework for Semi-Supervised Echocardiography Segmentation
Zhang, Jiapeng / Wang, Yongxiong / Pan, Zhiqun / Tang, Zhenhui / Chen, Lijun / Liu, Jinlong et al. | 2023
digital version
1: SLBERT: A Novel Pre-Training Framework for Joint Speech and Language Modeling
Susladkar, Onkar / Gatti, Prajwal / Kumar Yadav, Santosh et al. | 2023
digital version
1: Iterative Shallow Fusion of Backward Language Model for End-To-End Speech Recognition
Ogawa, Atsunori / Moriya, Takafumi / Kamo, Naoyuki / Tawara, Naohiro / Delcroix, Marc et al. | 2023
digital version
1: Seri: Sketching-Reasoning-Integrating Progressive Workflow for Empathetic Response Generation
Bi, Guanqun / Cao, Yanan / Li, Piji / Xie, Yuqiang / Fang, Fang / Lin, Zheng et al. | 2023
digital version
1: Vitasd: Robust Vision Transformer Baselines for Autism Spectrum Disorder Facial Diagnosis
Cao, Xu / Ye, Wenqian / Sizikova, Elena / Bai, Xue / Coffee, Megan / Zeng, Hongwu / Cao, Jianguo et al. | 2023
digital version
1: The Role of Initial Entanglement in Adaptive Gibbs State Preparation on Quantum Computers
Economou, Sophia E. / Warren, Ada / Barnes, Edwin et al. | 2023
digital version
1: Multilevel FISTA for Image Restoration
Lauga, Guillaume / Riccietti, Elisa / Pustelnik, Nelly / Goncalves, Paulo et al. | 2023
digital version
1: JPEG Pleno Call for Proposals Responses Quality Assessment
Prazeres, Joao / Luo, Zhe / Pinheiro, Antonio M. G. / da Silva Cruz, Luis A. / Perry, Stuart et al. | 2023
digital version
1: Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale Network and Self-Attention Mechanism
Li, Dichucheng / Che, Mingjin / Meng, Wenwu / Wu, Yulun / Yu, Yi / Xia, Fan / Li, Wei et al. | 2023
digital version
1: WITT: A Wireless Image Transmission Transformer for Semantic Communications
Yang, Ke / Wang, Sixian / Dai, Jincheng / Tan, Kailin / Niu, Kai / Zhang, Ping et al. | 2023
digital version
1: Kernel Estimation and Deconvolution for Blind Image Super-Resolution
Gong, Jiali / Gao, Hongfan / Chao, Jiahao / Zhou, Zhou / Yang, Zhengfeng / Zeng, Zhenbing et al. | 2023
digital version
1: Learned Video Coding with Motion Compensation Mixture Model
Dinh, Khanh Quoc / Pyo Choi, Kwang et al. | 2023
digital version
1: Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation
Chen, Qi / Ma, Ziyang / Liu, Tao / Tan, Xu / Lu, Qu / Yu, Kai / Chen, Xie et al. | 2023
digital version
1: A Synthetic Corpus Generation Method for Neural Vocoder Training
Wang, Zilin / Liu, Peng / Chen, Jun / Li, Sipan / Bai, Jinfeng / He, Gang / Wu, Zhiyong / Meng, Helen et al. | 2023
digital version
1: HiSSNet: Sound Event Detection and Speaker Identification via Hierarchical Prototypical Networks for Low-Resource Headphones
Shashaank, N / Banar, Berker / Izadi, Mohammad Rasool / Kemmerer, Jeremy / Zhang, Shuo / Huang, Chuan-Che Jeff et al. | 2023
digital version
1: Robust Acoustic And Semantic Contextual Biasing In Neural Transducers For Speech Recognition
Fu, Xuandi / Sathyendra, Kanthashree Mysore / Gandhe, Ankur / Liu, Jing / Strimel, Grant P. / McGowan, Ross / Mouchtaris, Athanasios et al. | 2023
digital version
1: Multi-Task Bias-Variance Trade-Off Through Functional Constraints
Cervino, Juan / Bazerque, Juan Andres / Calvo-Fullana, Miguel / Ribeiro, Alejandro et al. | 2023
digital version
1: Towards a More Stable and General Subgraph Information Bottleneck
Liu, Hongzhi / Zheng, Kaizhong / Yu, Shujian / Chen, Badong et al. | 2023
digital version
1: Unsupervised Domain Adaptation via Subspace Interpolating Deep Dictionary Learning: A Case Study in Machine Inspection
Kumar, Kriti / Majumdar, Angshul / Kumar, A Anil / Girish Chandra, M et al. | 2023
digital version
1: Adaptive Filtering Algorithms For Set-Valued Observations-Symmetric Measurement Approach To Unlabeled And Anonymized Data
Krishnamurthy, Vikram et al. | 2023
digital version
1: Classification of Synthetic Facial Attributes by Means of Hybrid Classification/Localization Patch-Based Analysis
Wang, Jun / Tondi, Benedetta / Barni, Mauro et al. | 2023
digital version
1: A Point is A Wave: Point-Wave Network for Place Recognition
Li, Ge / Zhang, Ruonan et al. | 2023
digital version
1: Robust and Globally Sparse Pca via Majorization-Minimization and Variable Splitting
Brehier, Hugo / Breloy, Arnaud / El Korso, Mohammed Nabil / Kumar, Sandeep et al. | 2023
digital version
1: Zero-Shot Speech Emotion Recognition Using Generative Learning with Reconstructed Prototypes
Xu, Xinzhou / Deng, Jun / Zhang, Zixing / Yang, Zhen / Schuller, Bjorn W. et al. | 2023
digital version
1: Multi-Task Transformer with Relation-Attention and Type-Attention for Named Entity Recognition
Mo, Ying / Tang, Hongyin / Liu, Jiahao / Wang, Qifan / Xu, Zenglin / Wang, Jingang / Wu, Wei / Li, Zhoujun et al. | 2023
digital version
1: Self-Supervised Representations in Speech-Based Depression Detection
Wu, Wen / Zhang, Chao / Woodland, Philip C. et al. | 2023
digital version
1: A Simple Yet Effective Approach to Structured Knowledge Distillation
Lin, Wenye / Li, Yangming / Liu, Lemao / Shi, Shuming / Zheng, Hai-Tao et al. | 2023
digital version
1: Leveraging Neural Koopman Operators to Learn Continuous Representations of Dynamical Systems from Scarce Data
Frion, Anthony / Drumetz, Lucas / Mura, Mauro Dalla / Tochon, Guillaume / Aissa-El-Bey, Abdeldjalil et al. | 2023
digital version
1: WUDA: Unsupervised Domain Adaptation Based on Weak Source Domain Labels
Liu, Shengjie / Zhu, Chuang / Li, Yuan / Tang, Wenqi et al. | 2023
digital version
1: A Memory-Free Evolving Bipolar Neural Network for Efficient Multi-Label Stream Learning
Mishra, Sourav / Sundaram, Suresh et al. | 2023
digital version
1: Prototype Knowledge Distillation for Medical Segmentation with Missing Modality
Wang, Shuai / Yan, Zipei / Zhang, Daoan / Wei, Haining / Li, Zhongsen / Li, Rui et al. | 2023
digital version
1: A Novel Efficient Multi-View Traffic-Related Object Detection Framework
Yang, Kun / Liu, Jing / Yang, Dingkang / Wang, Hanqi / Sun, Peng / Zhang, Yanni / Liu, Yan / Song, Liang et al. | 2023
digital version
1: Learning with Multigraph Convolutional Filters
Butler, Landon / Parada-Mayorga, Alejandro / Ribeiro, Alejandro et al. | 2023
digital version
1: Self-Supervised Audio-Visual Speech Representations Learning by Multimodal Self-Distillation
Zhang, Jing-Xuan / Wan, Genshun / Ling, Zhen-Hua / Pan, Jia / Gao, Jianqing / Liu, Cong et al. | 2023
digital version
1: Exploring Wav2vec 2.0 Fine Tuning for Improved Speech Emotion Recognition
Chen, Li-Wei / Rudnicky, Alexander et al. | 2023
digital version
1: Reducing the GAP Between Streaming and Non-Streaming Transducer-Based ASR by Adaptive Two-Stage Knowledge Distillation
Tang, Haitao / Fu, Yu / Sun, Lei / Xue, Jiabin / Liu, Dan / Li, Yongchao / Ma, Zhiqiang / Wu, Minghui / Pan, Jia / Wan, Genshun et al. | 2023
digital version
1: Generalized Invariant Matching Property Via Lasso
Du, Kang / Xiang, Yu et al. | 2023
digital version
1: Efficient Feature Extraction for Non-Maximum Suppression in Visual Person Detection
Symeonidis, Charalampos / Mademlis, Ioannis / Pitas, Ioannis / Nikolaidis, Nikos et al. | 2023
digital version
1: Visual-Aware Text-to-Speech^*
Zhou, Mohan / Bai, Yalong / Zhang, Wei / Yao, Ting / Zhao, Tiejun / Mei, Tao et al. | 2023
digital version
1: Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples
Ryu, Hyeonggon / Senocak, Arda / So Kweon, In / Son Chung, Joon et al. | 2023
digital version
1: Front-End Adapter: Adapting Front-End Input of Speech Based Self-Supervised Learning for Speech Recognition
Chen, Xie / Ma, Ziyang / Tang, Changli / Wang, Yujin / Zheng, Zhisheng et al. | 2023
digital version
1: Do Prosody Transfer Models Transfer Prosodyƒ
Sigurgeirsson, Atli Thor / King, Simon et al. | 2023
digital version
1: Rate Splitting and Precoding Strategies for Multi-User MIMO Broadcast Channels with Common and Private Streams
Khamidullina, Liana / de Almeida, Andre L. F. / Haardt, Martin et al. | 2023
digital version
1: A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken Command Recognition
Yang, Chao-Han Huck / Li, Bo / Zhang, Yu / Chen, Nanxin / Sainath, Tara N. / Marco Siniscalchi, Sabato / Lee, Chin-Hui et al. | 2023
digital version
1: Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech Recognition
Vander Eeckt, Steven / Van Hamme, Hugo et al. | 2023
digital version
1: VPPT: Visual Pre-Trained Prompt Tuning Framework for Few-Shot Image Classification
Song, Zhao / Yang, Ke / Guan, Naiyang / Zhu, Junjie / Qiao, Peng / Hu, Qingyong et al. | 2023
digital version
1: Test Your Samples Jointly: Pseudo-Reference for Image Quality Evaluation
Tworski, Marcelin / Lathuiliere, Stephane et al. | 2023
digital version
1: Waveform Design to Improve the Estimation of Target Parameters Using the Fourier Transform Method in a MIMO OFDM DFRC System
Bhogavalli, Satwika / Grivel, Eric / Hari, K.V.S. / Corretja, Vincent et al. | 2023
digital version
1: Modify: Model-Driven Face Stylization Without Style Images
Ding, Yuhe / Liang, Jian / Cao, Jie / Zheng, Aihua / He, Ran et al. | 2023
digital version
1: TINYCOD: Tiny and Effective Model for Camouflaged Object Detection
Xing, Haozhe / Gao, Shuyong / Tang, Hao / Mok, Tsui Qin / Kang, Yanlan / Zhang, Wenqiang et al. | 2023
digital version
1: Automatic Segmentation of Nasopharyngeal Carcinoma in CT Images Using Dual Attention and Edge Detection
Wang, Qizhi / Huang, Wei / Zhang, Yuan / Li, Xuanya / Ye, Xiongjun / Hu, Kai et al. | 2023
digital version
1: Fast and Efficient Speech Enhancement with Variational Autoencoders
Sadeghi, Mostafa / Serizel, Romain et al. | 2023
digital version
1: Representation of Vocal Tract Length Transformation Based on Group Theory
Miyashita, Atsushi / Toda, Tomoki et al. | 2023
digital version
1: Sandformer: CNN and Transformer under Gated Fusion for Sand Dust Image Restoration
Shi, Jun / Wei, Bingcai / Zhou, Gang / Zhang, Liye et al. | 2023
digital version
1: Utility Polelocalization by Learning from Ambient Traces on Distributed Acoustic Sensing
Jiang, Zhuocheng / Tian, Yue / Ding, Yangmin / Ozharar, Sarper / Wang, Ting et al. | 2023
digital version
1: Multi-User Methods for Vibrational Radar Backscatter Communications
Centers, Jessica / Krolik, Jeffrey et al. | 2023
digital version
1: Target Sound Extraction with Variable Cross-Modality Clues
Li, Chenda / Qian, Yao / Chen, Zhuo / Wang, Dongmei / Yoshioka, Takuya / Liu, Shujie / Qian, Yanmin / Zeng, Michael et al. | 2023
digital version
1: Model-Free Learning of Optimal Beamformers for Passive IRS-Assisted Sumrate Maximization
Hashmi, Hassaan / Pougkakiotis, Spyridon / Kalogerias, Dionysios S. et al. | 2023
digital version
1: Strategies for Enhanced Signal Modulation Classifications Under Unknown Symbol Rates and Noise Conditions
Wang, Ruixuan / Qi, Yue / Vaezi, Mojtaba / Jiao, Xun / Amin, Moeness et al. | 2023
digital version
1: Target Velocity Estimation for Quantization-Based Cooperative MIMO Radar and Communications System
Wang, Zhen / Yan, Xuedan / He, Qian / Blum, Rick S. et al. | 2023
digital version
1: Margin-Mixup: A Method for Robust Speaker Verification In Multi-Speaker Audio
Thienpondt, Jenthe / Madhu, Nilesh / Demuynck, Kris et al. | 2023
digital version
1: Evopose: A Recursive Transformer for 3D Human Pose Estimation with Kinematic Structure Priors
Zhang, Yaqi / Lu, Yan / Liu, Bin / Zhao, Zhiwei / Chu, Qi / Yu, Nenghai et al. | 2023
digital version
1: Subspace-Based Detector For Distributed Mmwave Mimo Radar Sensors
Ahmadi, Moein / Alaee-Kerahroodi, Mohammad / M. R., Bhavani Shankar / Ottersten, Bjorn et al. | 2023
digital version
1: A Unitary Transform Based Generalized Approximate Message Passing
Zhu, Jiang / Meng, Xiangming / Lei, Xupeng / Guo, Qinghua et al. | 2023
digital version
1: Adaptive Data Augmentation for Contrastive Learning
Zhang, Yuhan / Zhu, He / Yu, Shan et al. | 2023
digital version
1: E2E Segmentation in a Two-Pass Cascaded Encoder ASR Model
Huang, W. Ronny / Chang, Shuo-Yiin / Sainath, Tara N. / He, Yanzhang / Rybach, David / David, Robert / Prabhavalkar, Rohit / Allauzen, Cyril / Peyser, Cal / Strohman, Trevor D. et al. | 2023
digital version
1: Binary Sequence Set Optimization for CDMA Applications via Mixed-Integer Quadratic Programming
Yang, Alan / Mina, Tara / Gao, Grace et al. | 2023
digital version
1: Blind Polynomial Regression
Natali, Alberto / Leus, Geert et al. | 2023
digital version
1: ERSAM: Neural Architecture Search for Energy-Efficient and Real-Time Social Ambiance Measurement
Li, Chaojian / Chen, Wenwan / Yuan, Jiayi / Lin, Yingyan Celine / Sabharwal, Ashutosh et al. | 2023
digital version
1: Statistical Analysis of Speech Disorder Specific Features to Characterise Dysarthria Severity Level
Joshy, Amlu Anna / Parameswaran, P. N. / Nair, Siddharth R. / Rajan, Rajeev et al. | 2023
digital version
1: Generalized Relative Harmonic Coefficients
Hu, Yonggang / Gannot, Sharon / Abhayapala, Thushara D. et al. | 2023
digital version
1: Perceptual–Neural–Physical Sound Matching
Han, Han / Lostanlen, Vincent / Lagrange, Mathieu et al. | 2023
digital version
1: Improved Training Of Mixture-Of-Experts Language GANs
Chai, Yekun / Yin, Qiyue / Zhang, Junge et al. | 2023
digital version
1: Spatial-Domain Object Detection Under Mimo-Fmcw Automotive Radar Interference
Jin, Sian / Wang, Pu / Boufounos, Petros / Takahashi, Ryuhei / Roy, Sumit et al. | 2023
digital version
1: I See What You Hear: A Vision-Inspired Method to Localize Words
Samragh, Mohammad / Kundu, Arnav / Hu, Ting-Yao / Chadha, Aman / Srivastava, Ashish / Cho, Minsik / Tuzel, Oncel / Naik, Devang et al. | 2023
digital version
1: Lightweight Fisher Vector Transfer Learning for Video Deduplication
Henry, Chris / Liao, Rijun / Lin, Ruiyuan / Zhang, Zhebin / Sun, Hongyu / Li, Zhu et al. | 2023
digital version
1: Difference Coarrays of Rational Arrays
Kulkarni, Pranav / Vaidyanathan, P. P. et al. | 2023
digital version
1: SIGVIC: Spatial Importance Guided Variable-Rate Image Compression
Liang, Jiaming / Liu, Meiqin / Yao, Chao / Lin, Chunyu / Zhao, Yao et al. | 2023
digital version
1: UCONV-Conformer: High Reduction of Input Sequence Length for End-to-End Speech Recognition
Andrusenko, Andrei / Nasretdinov, Rauf / Romanenko, Aleksei et al. | 2023
digital version
1: Unsupervised Noise Adaptation Using Data Simulation
Chen, Chen / Hu, Yuchen / Zou, Heqing / Sun, Linhui / Chng, Eng Siong et al. | 2023
digital version
1: Logo-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression Recognition
Ma, Fuyan / Sun, Bin / Li, Shutao et al. | 2023
digital version
1: Adaptive Time-Scale Modification for Improving Speech Intelligibility Based On Phoneme Clustering For Streaming Services
Jang, Sohee / Kim, Jiye / Kim, Yeon-Ju / Chang, Joon-Hyuk et al. | 2023
digital version
1: Learning to Reconnect Interrupted Trajectories for Weakly Supervised Multi-Object Tracking
Li, Yu-Lei / Lu, Yang / Li, Jie / Wang, Hanzi et al. | 2023
digital version
1: Lego-Features: Exporting Modular Encoder Features for Streaming and Deliberation ASR
Botros, Rami / Prabhavalkar, Rohit / Schalkwyk, Johan / Chelba, Ciprian / Sainath, Tara N. / Beaufays, Francoise et al. | 2023
digital version
1: Deepspace: Dynamic Spatial and Source CUE Based Source Separation for Dialog Enhancement
Master, Aaron / Lu, Lie / Samuelsson, Jonas / Lehtonen, Heidi-Maria / Norcross, Scott / Swedlow, Nathan / Howard, Audrey et al. | 2023
digital version
1: Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution Detection
Chen, Xiongjie / Li, Yunpeng / Yang, Yongxin et al. | 2023
digital version
1: Cross-Lingual Alzheimer’s Disease Detection Based on Paralinguistic and Pre-Trained Features
Chen, Xuchu / Pu, Yu / Li, Jinpeng / Zhang, Wei-Qiang et al. | 2023
digital version
1: Multi-Carrier Wideband OCDM-Based THZ Automotive Radar
Bhattacharjee, Sangeeta / Mishra, Kumar Vijay / Annavajjala, Ramesh / Murthy, Chandra R. et al. | 2023
digital version
1: Low Precision Representations for High Dimensional Models
Saha, Rajarshi / Pilanci, Mert / Goldsmith, Andrea J. et al. | 2023
digital version
1: Hypernetwork-Based Adaptive Image Restoration
Aharon, Shai / Ben-Artzi, Gil et al. | 2023
digital version
1: Your Camera Improves Your Point Cloud Compression
Lin, Yuhuan / Xu, Tongda / Zhu, Ziyu / Li, Yanghao / Wang, Zhe / Wang, Yan et al. | 2023
digital version
1: Pseudo-Query Generation For Semi-Supervised Visual Grounding With Knowledge Distillation
Jin, Jianglin / Ye, Jiabo / Lin, Xin / He, Liang et al. | 2023
digital version
1: 2DSBG: A 2d Semi Bi-Gaussian Filter Adapted for Adjacent and Multi-Scale Line Feature Detection
Magnier, Baptiste / Shokouh, Ghulam Sakhi / Berthier, Louis / Pie, Marcel / Ruggiero, Adrien et al. | 2023
digital version
1: Estimation of High-Dimensional Differential Graphs from Multi-Attribute Data
Tugnait, Jitendra K. et al. | 2023
digital version
1: Joint Unsupervised and Supervised Learning for Context-Aware Language Identification
Park, Jinseok / Kim, Hyung Yong / Park, Jihwan / Kim, Byeong-Yeol / Choi, Shukjae / Lim, Yunkyu et al. | 2023
digital version
1: Improving Transformer-Based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention Heads
Jeoung, Ye-Rin / Yang, Joon-Young / Choi, Jeong-Hwan / Chang, Joon-Hyuk et al. | 2023
digital version
1: On the Value of Stochastic Side Information in Online Learning
Jia, Junzhang / Wu, Xuetong / Evans, Jamie / Zhu, Jingge et al. | 2023
digital version
1: Learning Task-Aligned Mask Query for Instance Segmentation
Fu, Bin / He, Hongliang / Wei, Pengxu / Chen, Jie et al. | 2023
digital version
1: On The Primal and Dual Formulations Of The Discrete Mumford-Shah Functional
Pustelnik, Nelly et al. | 2023
digital version
1: Robust Angle Estimation for Hybrid mmWave Systems
Lin, Yuan-Pei / Yang, Ting-Ming et al. | 2023
digital version
1: On The Fairness of Multitask Representation Learning
Li, Yingcong / Oymak, Samet et al. | 2023
digital version
1: VF-Taco2: Towards Fast and Lightweight Synthesis for Autoregressive Models with Variation Autoencoder and Feature Distillation
Liu, Yuhao / Gong, Cheng / Wang, Longbiao / Wu, Xixin / Liu, Qiuyu / Dang, Jianwu et al. | 2023
digital version
1: Domain and Language Adaptation Using Heterogeneous Datasets for Wav2vec2.0-Based Speech Recognition of Low-Resource Language
Soky, Kak / Li, Sheng / Chu, Chenhui / Kawahara, Tatsuya et al. | 2023
digital version
1: Pop2Piano : Pop Audio-Based Piano Cover Generation
Choi, Jongho / Lee, Kyogu et al. | 2023
digital version
1: Multi-Lingual Pronunciation Assessment with Unified Phoneme Set and Language-Specific Embeddings
Lin, Binghuai / Wang, Liyuan et al. | 2023
digital version
1: Interpolation Filter Model For Ramanujan Subspace Signals
Kulkarni, Pranav / Vaidyanathan, P. P. et al. | 2023
digital version
1: Online Binaural Speech Separation Of Moving Speakers With A Wavesplit Network
Han, Cong / Mesgarani, Nima et al. | 2023
digital version
1: A Hybrid Deep Neural Network for Nonlinear Causality Analysis in Complex Industrial Control System
Feng, Tian / Chen, Qiming / Shi, Yao / Lang, Xun / Xie, Lei / Su, Hongye et al. | 2023
digital version
1: Autovocoder: Fast Waveform Generation from a Learned Speech Representation Using Differentiable Digital Signal Processing
Webber, Jacob J / Valentini-Botinhao, Cassia / Williams, Evelyn / Henter, Gustav Eje / King, Simon et al. | 2023
digital version
1: Self-Sufficient Framework for Continuous Sign Language Recognition
Jang, Youngjoon / Oh, Youngtaek / Cho, Jae Won / Kim, Myungchul / Kim, Dong-Jin / Kweon, In So / Son Chung, Joon et al. | 2023
digital version
1: Signal Processing On Product Spaces
Roddenberry, T. Mitchell / Grande, Vincent P. / Frantzen, Florian / Schaub, Michael T. / Segarra, Santiago et al. | 2023
digital version
1: On the Effectiveness of Monoaural Target Source Extraction for Distant end-to-end Automatic Speech Recognition
Zorila, Catalin / Doddipatla, Rama et al. | 2023
digital version
1: MAID: A Conditional Diffusion Model for Long Music Audio Inpainting
Liu, Kaiyang / Gan, Wendong / Yuan, Chenchen et al. | 2023
digital version
1: Semi-Federated Learning for Edge Intelligence with Imperfect SIC
Ni, Wanli / Zheng, Jingheng / Eldar, Yonina C. / You, Changsheng / Huang, Kaibin et al. | 2023
digital version
1: Dual Collaborative Visual-Semantic Mapping for Multi-Label Zero-Shot Image Recognition
Hu, Yunqing / Jin, Xuan / Chen, Xi / Zhang, Yin et al. | 2023
digital version
1: Topological Slepians: Maximally Localized Representations of Signals Over Simplicial Complexes
Battiloro, Claudio / Di Lorenzo, Paolo / Barbarossa, Sergio et al. | 2023
digital version
1: Efficient Feature Fusion for Learning-Based Photometric Stereo
Ju, Yakun / Lam, Kin-Man / Xiao, Jun / Zhang, Cong / Yang, Cuixin / Dong, Junyu et al. | 2023
digital version
1: Improving Scheduled Sampling for Neural Transducer-Based ASR
Moriya, Takafumi / Ashihara, Takanori / Sato, Hiroshi / Matsuura, Kohei / Tanaka, Tomohiro / Masumura, Ryo et al. | 2023
digital version
1: Unobtrusive Respiratory Monitoring System for Intensive Care
Tan, Xudong / Hu, Menghan / Zhai, Guangtao / Zhu, Yan / Li, Wenfang / Zhang, XiaoPing et al. | 2023
digital version
1: Integrating the Sensing and Radio Communications Channel Modelling From Radar Mutual Interference
Cardona, Narcis / Romero, J. Samuel / Yang, Wenfei / Li, Jian et al. | 2023
digital version
1: TDMA-Based Multi-User Binary Computation Offloading in the Finite-Block-Length Regime
Manouchehrpour, M. Amin / Lehal, Harvinder / Salmani, Mahsa / Davidson, Timothy N. et al. | 2023
digital version
1: Multispectral Image Fusion based on Super Pixel Segmentation
Ofir, Nati et al. | 2023
digital version
1: Optimal Transport with a Diversified Memory Bank for Cross-Domain Speaker Verification
Zhang, Ruiteng / Wei, Jianguo / Lu, Xugang / Lu, Wenhuan / Jin, Di / Zhang, Lin / Xu, Junhai et al. | 2023
digital version
1: Fast Low-Latency Convolution by Low-Rank Tensor Approximation
Jalmby, Martin / Elvander, Filip / van Waterschoot, Toon et al. | 2023
digital version
1: A Controllable Lifestyle Simulator for Use in Deep Reinforcement Learning Algorithms
Braz, Libio Goncalves / Susaiyah, Allmin et al. | 2023
digital version
1: BTS-E: Audio Deepfake Detection Using Breathing-Talking-Silence Encoder
Doan, Thien-Phuc / Nguyen-Vu, Long / Jung, Souhwan / Hong, Kihun et al. | 2023
digital version
1: Study of Manifold Geometry Using Multiscale Non-Negative Kernel Graphs
Hurtado, Carlos / Shekkizhar, Sarath / Ruiz-Hidalgo, Javier / Ortega, Antonio et al. | 2023
digital version
1: Learning Silhouettes with Group Sparse Autoencoders
Theodosis, Emmanouil / Ba, Demba et al. | 2023
digital version
1: ScaleMix: Intra- And Inter-Layer Multiscale Feature Combination for Change Detection
Huang, Rui / Zhao, Qingyi / Wang, Ruofei / Liu, Caihua / Gao, Sihua / Zhang, Yuxiang / Fan, Wei et al. | 2023
digital version
1: Is Multi-Task Learning an Upper Bound for Continual Learning?
Wu, Zihao / Tran, Huy / Pirsiavash, Hamed / Kolouri, Soheil et al. | 2023
digital version
1: Local Graph-Homomorphic Processing for Privatized Distributed Systems
Rizk, Elsa / Vlaski, Stefan / Sayed, Ali H. et al. | 2023
digital version
1: MASKED-AP: Attention Pyramid Convolutional Neural Network with Mask for Cervical Cell Classification
Jin, Yu / Liu, Juan / Chen, Hua / Duan, Wensi / Cao, Dehua / Pang, Baochuan et al. | 2023
digital version
1: Pondering About Task Spatial Misalignment: Classification-Localization Equilibrated Object Detection
Zhang, Yudong / Lu, Wei / Wang, Xu / Wang, Pengkun / Wang, Yang et al. | 2023
digital version
1: Multiple Access Computation Offloading for the K-User Case
Liu, Xiaomeng / Schaible, Christian / Davidson, Timothy N. et al. | 2023
digital version
1: Movienet-PS: A Large-Scale Person Search Dataset in the Wild
Qin, Jie / Zheng, Peng / Yan, Yichao / Quan, Rong / Cheng, Xiaogang / Ni, Bingbing et al. | 2023
digital version
1: Spatial Similarity Guidance for Few-Shot Segmentation
Luo, Xiaoliu / Duan, Zhao / Zhang, Taiping et al. | 2023
digital version
1: Efficient Monaural Speech Enhancement with Universal Sample Rate Band-Split RNN
Yu, Jianwei / Luo, Yi et al. | 2023
digital version
1: Code-Switching Speech Synthesis Based on Self-Supervised Learning and Domain Adaptive Speaker Encoder
Lin, Yi-Xing / Pai, Cheng-Hsun / Le, Phuong Thi / Prihasto, Bima / Huang, Chien-Ling / Wang, Jia Ching et al. | 2023
digital version
1: Mixed Sample Augmentation for Online Distillation
Shen, Yiqing / Xu, Liwu / Yang, Yuzhe / Li, Yaqian / Guo, Yandong et al. | 2023
digital version
1: Meeting Action Item Detection with Regularized Context Modeling
Liu, Jiaqing / Deng, Chong / Zhang, Qinglin / Chen, Qian / Wang, Wen et al. | 2023
digital version
1: CLMAE: A Liter and Faster Masked Autoencoders
Song, Yiran / Ma, Lizhuang et al. | 2023
digital version
1: Graph Signal Processing for Narrowband Direction of Arrival Estimation
Li, Disheng / Liu, Wei / Zakharov, Yuriy / Mitchell, Paul D et al. | 2023
digital version
1: Privacy-Preserving Automatic Speaker Diarization
Teixeira, Francisco / Abad, Alberto / Raj, Bhiksha / Trancoso, Isabel et al. | 2023
digital version
1: An End-to-End Neural Network for Image-to-Audio Transformation
Chen, Liu / Deisher, Michael / Georges, Munir et al. | 2023
digital version
1: Joint Multi-Level Feature Network for Lightweight Person Re-Identification
Zhang, Yunzuo / Kang, Weili / Liu, Yameng / Zhu, Pengfei et al. | 2023
digital version
1: Learning Cross-Modal Audiovisual Representations with Ladder Networks for Emotion Recognition
Goncalves, Lucas / Busso, Carlos et al. | 2023
digital version
1: Quantized Precoding and RIS-Assisted Modulation for Integrated Sensing and Communications Systems
Prasobh Sankar, R. S. / Prabhakar Chepuri, Sundeep et al. | 2023
digital version
1: Towards Adversarially Robust Continual Learning
Bai, Tao / Chen, Chen / Lyu, Lingjuan / Zhao, Jun / Wen, Bihan et al. | 2023
digital version
1: Ultimate Negative Sampling for Contrastive Learning
Guo, Huijie / Shi, Lei et al. | 2023
digital version
1: A Holistic Cascade System, Benchmark, and Human Evaluation Protocol for Expressive Speech-to-Speech Translation
Huang, Wen-Chin / Peloquin, Benjamin / Kao, Justine / Wang, Changhan / Gong, Hongyu / Salesky, Elizabeth / Adi, Yossi / Lee, Ann / Chen, Peng-Jen et al. | 2023
digital version
1: T5lephone: Bridging Speech and Text Self-Supervised Models for Spoken Language Understanding Via Phoneme Level T5
Hsu, Chan-Jan / Chung, Ho-Lam / Lee, Hung-Yi / Tsao, Yu et al. | 2023
digital version
1: CD-FSOD: A Benchmark For Cross-Domain Few-Shot Object Detection
Xiong, Wuti et al. | 2023
digital version
1: Elliptical Wishart Distribution: Maximum Likelihood Estimator from Information Geometry
Ayadi, Imen / Bouchard, Florent / Pascal, Frederic et al. | 2023
digital version
1: Distributed Bayesian Tracking on the Special Euclidean Group Using Lie Algebra Parametric Approximations
Bordin, Claudio J. / de Figueredo, Caio G. / Bruno, Marcelo G. S. et al. | 2023
digital version
1: Asynchronous Social Learning
Cemri, Mert / Bordignon, Virginia / Kayaalp, Mert / Shumovskaia, Valentina / Sayed, Ali H. et al. | 2023
digital version
1: Cramér-Rao Bound on Lie Groups with Observations on Lie Groups: Application to SE(2)
Labsir, Samy / Renaux, Alexandre / Vila-Valls, Jordi / Chaumette, Eric et al. | 2023
digital version
1: D2Former: A Fully Complex Dual-Path Dual-Decoder Conformer Network Using Joint Complex Masking and Complex Spectral Mapping for Monaural Speech Enhancement
Zhao, Shengkui / Ma, Bin et al. | 2023
digital version
1: Extended Kalman Filter for Graph Signals in Nonlinear Dynamic Systems
Sagi, Guy / Shlezinger, Nir / Routtenberg, Tirza et al. | 2023
digital version
1: Perspective Projection-Based 3d CT Reconstruction from Biplanar X-Rays
Kyung, Daeun / Jo, Kyungmin / Choo, Jaegul / Lee, Joonseok / Choi, Edward et al. | 2023
digital version
1: Tg-Critic: A Timbre-Guided Model For Reference-Independent Singing Evaluation
Sun, Xiaoheng / Gao, Yuejie / Lin, Hanyao / Liu, Huaping et al. | 2023
digital version
1: Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models
Ashihara, Takanori / Moriya, Takafumi / Matsuura, Kohei / Tanaka, Tomohiro et al. | 2023
digital version
1: Frequency Bin-Wise Single Channel Speech Presence Probability Estimation Using Multiple DNNS
Tao, Shuai / Reddy, Himavanth / Jensen, Jesper Rindom / Christensen, Mads Grasboll et al. | 2023
digital version
1: Structural Optimization of Factor Graphs for Symbol Detection via Continuous Clustering and Machine Learning
Rapp, Lukas / Schmid, Luca / Rode, Andrej / Schmalen, Laurent et al. | 2023
digital version
1: Selective Film Conditioning with CTC-Based ASR Probability for Speech Enhancement
Yang, Da-Hee / Chang, Joon-Hyuk et al. | 2023
digital version
1: Egocentric Action Anticipation for Personal Health
Rodin, Ivan / Furnari, Antonino / Mavroeidis, Dimitrios / Farinella, Giovanni Maria et al. | 2023
digital version
1: Enhanced Low-Resolution LiDAR-Camera Calibration via Depth Interpolation and Supervised Contrastive Learning
Zhang, Zhikang / Yu, Zifan / You, Suya / Rao, Raghuveer / Agarwal, Sanjeev / Ren, Fengbo et al. | 2023
digital version
1: SCSGNet: Spatial-Correlated and Shape-Guided Network for Breast Mass Segmentation
Li, Qingqiu / Xu, Jilan / Yuan, Runtian / Zhang, Yuejie / Feng, Rui et al. | 2023
digital version
1: A Progressive Neural Network for Acoustic Echo Cancellation
Chen, Zhuangqi / Xia, Xianjun / Sun, Siyu / Wang, Ziqian / Chen, Cheng / Xie, Guoliang / Zhang, Pingjian / Xiao, Yijian et al. | 2023
digital version
1: Ensemble Knowledge Distillation of Self-Supervised Speech Models
Huang, Kuan -Po / Feng, Tzu-Hsun / Fu, Yu-Kuan / Hsu, Tsu-Yuan / Yen, Po-Chieh / Tseng, Wei-Cheng / Chang, Kai-Wei / Lee, Hung-Yi et al. | 2023
digital version
1: On Crowdsourcing-Design with Comparison Category Rating for Evaluating Speech Enhancement Algorithms
Suarez, Angelica S. Z. / Laroche, Clement / Clemmensen, Line H. / Das, Sneha et al. | 2023
digital version
1: Rate-Distortion Optimization with Alternative References for UGC Video Compression
Xiong, Xin / Pavez, Eduardo / Ortega, Antonio / Adsumilli, Balu et al. | 2023
digital version
1: Audiodec: An Open-Source Streaming High-Fidelity Neural Audio Codec
Wu, Yi-Chiao / Gebru, Israel D. / Markovic, Dejan / Richard, Alexander et al. | 2023
digital version
1: Image Reconstruction without Explicit Priors
Gao, Angela F. / Leong, Oscar / Sun, He / Bouman, Katherine L. et al. | 2023
digital version
1: Classification via Subspace Learning Machine (SLM): Methodology and Performance Evaluation
Fu, Hongyu / Yang, Yijing / Mishra, Vinod K. / Jay Kuo, C.-C. et al. | 2023
digital version
1: A Multi-Scale Feature Aggregation Based Lightweight Network for Audio-Visual Speech Enhancement
Xu, Haitao / Wei, Liangfa / Zhang, Jie / Yang, Jianming / Wang, Yannan / Gao, Tian / Fang, Xin / Dai, Lirong et al. | 2023
digital version
1: Multi-Scale Compositional Constraints for Representation Learning on Videos
Paraskevopoulos, Georgios / Lavania, Chandrashekhar / Chum, Lovish / Sundaram, Shiva et al. | 2023
digital version
1: Enhanced GM-PHD Filter for Real Time Satellite Multi-Target Tracking
Aguilar, Camilo / Ortner, Mathias / Zerubia, Josiane et al. | 2023
digital version
1: De’hubert: Disentangling Noise in a Self-Supervised Model for Robust Speech Recognition
Ng, Dianwen / Zhang, Ruixi / Yip, Jia Qi / Yang, Zhao / Ni, Jinjie / Zhang, Chong / Ma, Yukun / Ni, Chongjia / Chng, Eng Siong / Ma, Bin et al. | 2023
digital version
1: Weakly- and Semi-Supervised Object Localization
Huang, Zhen-Tang / Chen, Yan-He / Yeh, Mei-Chen et al. | 2023
digital version
1: Torchaudio-Squim: Reference-Less Speech Quality and Intelligibility Measures in Torchaudio
Kumar, Anurag / Tan, Ke / Ni, Zhaoheng / Manocha, Pranay / Zhang, Xiaohui / Henderson, Ethan / Xu, Buye et al. | 2023
digital version
1: Coarse-to-Fine Covid-19 Segmentation via Vision-Language Alignment
Shan, Dandan / Li, Zihan / Chen, Wentao / Li, Qingde / Tian, Jie / Hong, Qingqi et al. | 2023
digital version
1: EMC²-Net: Joint Equalization and Modulation Classification Based on Constellation Network
Ryu, Hyun / Choi, Junil et al. | 2023
digital version
1: Ripple Sparse Self-Attention for Monaural Speech Enhancement
Zhang, Qiquan / Zhu, Hongxu / Song, Qi / Qian, Xinyuan / Ni, Zhaoheng / Li, Haizhou et al. | 2023
digital version
1: A Physically Explainable Framework for Human-Related Anomaly Detection
Jiang, Yalong / Li, Huining / Li, Changkang et al. | 2023
digital version
1: Noncoherent Multiuser Grassmannian Constellations for the Mimo Multiple Access Channel
Alvarez-Vizoso, Javier / Cuevas, Diego / Beltran, Carlos / Santamaria, Ignacio / Tucek, Vit / Peters, Gunnar et al. | 2023
digital version
1: Identifying Source Speakers for Voice Conversion Based Spoofing Attacks on Speaker Verification Systems
Cai, Danwei / Cai, Zexin / Li, Ming et al. | 2023
digital version
1: A Compensated Shrinkage Affine Projection Algorithm for Debiased Sparse Adaptive Filtering
Zhang, Yi / Yamada, Isao et al. | 2023
digital version
1: Cross-Domain Object Classification Via Successive Subspace Alignment
Chen, Kecheng / Li, Haoliang / Yan, Hong et al. | 2023
digital version
1: Textless Direct Speech-to-Speech Translation with Discrete Speech Representation
Li, Xinjian / Jia, Ye / Chiu, Chung-Cheng et al. | 2023
digital version
1: Speaker-Independent Acoustic-to-Articulatory Speech Inversion
Wu, Peter / Chen, Li-Wei / Cho, Cheol Jun / Watanabe, Shinji / Goldstein, Louis / Black, Alan W / Anumanchipalli, Gopala K. et al. | 2023
digital version
1: Single-Photon Image Super-Resolution via Self-Supervised Learning
Chen, Yiwei / Jiang, Chen / Pan, Yu et al. | 2023
digital version
1: TSPTQ-ViT: Two-Scaled Post-Training Quantization for Vision Transformer
Tai, Yu-Shan / Lin, Ming-Guang / Wu, An-Yeu Andy et al. | 2023
digital version
1: Sparse Error Correction for Power Network Parameters
Senaratne, Dilan / Kim, Jinsub et al. | 2023
digital version
1: An Evaluation Platform to Scope Performance of Synthetic Environments in Autonomous Ground Vehicles Simulation
Bai, Xiangyu / Jiang, Le / Luo, Yedi / Gupta, Aniket / Kaveti, Pushyami / Singh, Hanumant / Ostadabbas, Sarah et al. | 2023
digital version
1: Quaternion Orthogonal Transformer for Facial Expression Recognition in the Wild
Zhou, Yu / Guo, Liyuan / Jin, Lianghai et al. | 2023
digital version
1: HQP-MVS:High-Quality Plane Priors Assisted Multi-View Stereo for Low-Textured Areas
Tian, Zefan / Wang, Rongjie / Wang, Zhenyu / Wang, Ronggang et al. | 2023
digital version
1: Daily Mental Health Monitoring from Speech: A Real-World Japanese Dataset and Multitask Learning Analysis
Song, Meishu / Triantafyllopoulos, Andreas / Yang, Zijiang / Takeuchi, Hiroki / Nakamura, Toru / Kishi, Akifumi / Ishizawa, Tetsuro / Yoshiuchi, Kazuhiro / Jing, Xin / Karas, Vincent et al. | 2023
digital version
1: ICCRN: Inplace Cepstral Convolutional Recurrent Neural Network for Monaural Speech Enhancement
Liu, Jinjiang / Zhang, Xueliang et al. | 2023
digital version
1: CROSSSPEECH: Speaker-Independent Acoustic Representation for Cross-Lingual Speech Synthesis
Kim, Ji-Hoon / Yang, Hong-Sun / Ju, Yoon-Cheol / Kim, Il-Hwan / Kim, Byeong-Yeol et al. | 2023
digital version
1: Ensemble Prosody Prediction For Expressive Speech Synthesis
Teh, Tian Huey / Hu, Vivian / Ram Mohan, Devang S / Hodari, Zack / Wallis, Christopher G. R. / Gomez Ibarrondo, Tomas / Torresquintero, Alexandra / Leoni, James / Gales, Mark / King, Simon et al. | 2023
digital version
1: Progressive Meta-Pooling Learning for Lightweight Image Classification Model
Dong, Peijie / Niu, Xin / Tian, Zhiliang / Li, Lujun / Wang, Xiaodong / Wei, Zimian / Pan, Hengyue / Li, Dongsheng et al. | 2023
digital version
1: Euro: Espnet Unsupervised ASR Open-Source Toolkit
Gao, Dongji / Shi, Jiatong / Chuang, Shun-Po / Garcia, Leibny Paola / Lee, Hung-Yi / Watanabe, Shinji / Khudanpur, Sanjeev et al. | 2023
digital version
1: Learning Generalizable Light Field Networks from Few Images
Li, Qian / Multon, Franck / Boukhayma, Adnane et al. | 2023
digital version
1: Cross-Domain Diffusion Based Speech Enhancement for Very Noisy Speech
Wang, Heming / Wang, DeLiang et al. | 2023
digital version
1: A Few Shot Learning of Singing Technique Conversion Based on Cycle Consistency Generative Adversarial Networks
Chen, Po-Wei / Soo, Von-Wun et al. | 2023
digital version
1: Compressed Distributed Regression over Adaptive Networks
Carpentiero, Marco / Matta, Vincenzo / Sayed, Ali H. et al. | 2023
digital version
1: An Approach to Ontological Learning from Weak Labels
Shah, Ankit / Tang, Larry / Chou, Po Hao / Zheng, Yi Yu / Ge, Ziqian / Raj, Bhiksha et al. | 2023
digital version
1: Sequential Datum–Wise Joint Feature Selection and Classification in the Presence of External Classifier
Ekanayake, Sachini Piyoni / Zois, DaphneynStavroula / Chelmis, Charalampos et al. | 2023
digital version
1: Learning From Label Proportion with Online Pseudo-Label Decision by Regret Minimization
Matsuo, Shinnosuke / Bise, Ryoma / Uchida, Seiichi / Suehiro, Daiki et al. | 2023
digital version
1: Predictive Skim: Contrastive Predictive Coding for Low-Latency Online Speech Separation
Li, Chenda / Wu, Yifei / Qian, Yanmin et al. | 2023
digital version
1: Fine-Grained Emotional Control of Text-to-Speech: Learning to Rank Inter- and Intra-Class Emotion Intensities
Wang, Shijun / Guenason, Jon / Borth, Damian et al. | 2023
digital version
1: Role of Bias Terms in Dot-Product Attention
Namazifar, Mahdi / Hazarika, Devamanyu / Hakkani-Tur, Dilek et al. | 2023
digital version
1: Learning Interpretable Filters In Wav-UNet For Speech Enhancement
Mathieu, Felix / Courtat, Thomas / Richard, Gael / Peeters, Geoffroy et al. | 2023
digital version
1: Cochlear Decomposition: A Novel Bio-Inspired Multiscale Analysis Framework
Alfalahi, Hessa / Khandoker, Ahsan / Alhussein, Ghada / Hadjileontiadis, Leontios et al. | 2023
digital version
1: Contrastive Learning of Sentence Embeddings in Product Search
Zhang, Bo-Wen / Yan, Yan / Yu, Jiapei et al. | 2023
digital version
1: Leveraging Sparsity with Spiking Recurrent Neural Networks for Energy-Efficient Keyword Spotting
Dampfhoffer, Manon / Mesquida, Thomas / Hardy, Emmanuel / Valentian, Alexandre / Anghel, Lorena et al. | 2023
digital version
1: A Quantum Approach for Stochastic Constrained Binary Optimization
Gupta, Sarthak / Kekatos, Vassilis et al. | 2023
digital version
1: Joint Antenna Selection and Beamforming in Integrated Automotive Radar Sensing-Communications with Quantized Double Phase Shifters
Xu, Lifan / Sun, Shunqiao / Zhang, Yimin D. / Petropulu, Athina et al. | 2023
digital version
1: MODEFORMER: Modality-Preserving Embedding For Audio-Video Synchronization Using Transformers
Gupta, Akash / Tripathi, Rohun / Jang, Wondong et al. | 2023
digital version
1: Semi-Supervised Learning with Per-Class Adaptive Confidence Scores for Acoustic Environment Classification with Imbalanced Data
Fiorio, Luan Vinicius / Karanov, Boris / David, Johan / Houtum, Wim van / Widdershoven, Frans / Aarts, Ronald M. et al. | 2023
digital version
1: Database-Aware ASR Error Correction for Speech-to-SQL Parsing
Shao, Yutong / Kumar, Arun / Nakashole, Ndapa et al. | 2023
digital version
1: Convolutional Filtering on Sampled Manifolds
Wang, Zhiyang / Ruiz, Luana / Ribeiro, Alejandro et al. | 2023
digital version
1: A Database for Multi-Modal Short Video Quality Assessment
Zhang, Yukun / Wang, Chuan / Zhang, Sanyi / Cao, Xiaochun et al. | 2023
digital version
1: Overview of the ICASSP 2023 General Meeting Understanding and Generation Challenge (MUG)
Zhang, Qinglin / Deng, Chong / Liu, Jiaqing / Yu, Hai / Chen, Qian / Wang, Wen / Yan, Zhijie / Liu, Jinglin / Ren, Yi / Zhao, Zhou et al. | 2023
digital version
1: Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: A Signal Processing Grand Challenge
Luz, Saturnino / Haider, Fasih / Fromm, Davida / Lazarou, Ioulietta / Kompatsiaris, Ioannis / MacWhinney, Brian et al. | 2023
digital version
1: Divcon: Learning Concept Sequences for Semantically Diverse Image Captioning
Zheng, Yue / Li, Ya-Li / Wang, Shengjin et al. | 2023
digital version
1: Exploiting Virtual Array Diversity for Accurate Radar Detection
Guan, Junfeng / Madani, Sohrab / Ahmed, Waleed / Hussein, Samah / Gupta, Saurabh / Hassanieh, Haitham et al. | 2023
digital version
1: Accelerated Distributed Stochastic Non-Convex Optimization over Time-Varying Directed Networks
Chen, Yiyue / Hashemi, Abolfazl / Vikalo, Haris et al. | 2023
digital version
1: SAN: A Robust End-to-End ASR Model Architecture
Min, Zeping / Ge, Qian / Huang, Guanhua et al. | 2023
digital version
1: Resource Allocation for UAV-Enabled Integrated Sensing and Communication (ISAC) via Multi-Objective Optimization
Rezaei, Omid / Naghsh, Mohammad Mahdi / Karbasi, Seyed Mohammad / Nayebi, Mohammad Mahdi et al. | 2023
digital version
1: Removing Radio Frequency Interference From Auroral Kilometric Radiation With Stacked Autoencoders
Chang, Allen / Knapp, Mary / LaBelle, James / Swoboda, John / Volz, Ryan / Erickson, Philip J. et al. | 2023
digital version
1: Soft Label Coding for end-to-end Sound Source Localization with ad-hoc Microphone Arrays
Feng, Linfeng / Gong, Yijun / Zhang, Xiao-Lei et al. | 2023
digital version
1: Study And Design Of Robust Personal Sound Zones With Vast Using Low Rank Rirs
Bhattacharjee, Sankha Subhra / Shi, Liming / Ping, Guoli / Shen, Xiaoxiang / Christensen, Mads Grasboll et al. | 2023
digital version
1: ROI-Based Deep Image Compression with Swin Transformers
Li, Binglin / Liang, Jie / Fu, Haisheng / Han, Jingning et al. | 2023
digital version
1: Event-Based Visual Microphone
Howard, Matthew / Hirakawa, Keigo et al. | 2023
digital version
1: Named Entity Detection and Injection for Direct Speech Translation
Gaido, Marco / Tang, Yun / Kulikov, Ilia / Huang, Rongqing / Gong, Hongyu / Inaguma, Hirofumi et al. | 2023
digital version
1: Efficient Stuttering Event Detection Using Siamese Networks
Mohapatra, Payal / Islam, Bashima / Islam, Md Tamzeed / Jiao, Ruochen / Zhu, Qi et al. | 2023
digital version
1: BadRes: Reveal the Backdoors Through Residual Connection
He, Mingrui / Chen, Tianyu / Zhou, Haoyi / Zhang, Shanghang / Li, Jianxin et al. | 2023
digital version
1: End-to-End Unsupervised Sketch to Image Generation
Lv, Xingming / Wu, Lei / Cheng, Zhenwei / Meng, Xiangxu et al. | 2023
digital version
1: Trinet: Stabilizing Self-Supervised Learning From Complete or Slow Collapse
Cao, Lixin / Wang, Jun / Yang, Ben / Su, Dan / Yu, Dong et al. | 2023
digital version
1: ERBNet: An Effective Representation Based Network for Unbiased Scene Graph Generation
Ma, Wenxi / Hou, Tianxiang / Di, Qianji / Qi, Zhongang / Shan, Ying / Wang, Hanzi et al. | 2023
digital version
1: Deformable Cross Attention for Learning Optical Flow
Abdein, Rokia / Xiang, Xuezhi / Lv, Ning / Saddik, Abdulmotaleb El et al. | 2023
digital version
1: Optimal Kernel for Real-Time Arbitrary-Shaped Text Detection
Ma, Haozhao / Yang, Chuang / Yuan, Yuan / Wang, Qi et al. | 2023
digital version
1: SVMV: Spatiotemporal Variance-Supervised Motion Volume for Video Frame Interpolation
Luo, Yao / Pan, Jinshan / Tang, Jinhui et al. | 2023
digital version
1: Cumulative Attention Based Streaming Transformer ASR with Internal Language Model Joint Training and Rescoring
Li, Mohan / Do, Cong-Thanh / Doddipatla, Rama et al. | 2023
digital version
1: Two-Stage Neural Network for ICASSP 2023 Speech Signal Improvement Challenge
Liu, Mingshuai / Lv, Shubo / Zhang, Zihan / Han, Runduo / Hao, Xiang / Xia, Xianjun / Chen, Li / Xiao, Yijian / Xie, Lei et al. | 2023
digital version
1: The Multimodal Information Based Speech Processing (Misp) 2022 Challenge: Audio-Visual Diarization And Recognition
Wang, Zhe / Wu, Shilong / Chen, Hang / He, Mao-Kui / Du, Jun / Lee, Chin-Hui / Chen, Jingdong / Watanabe, Shinji / Siniscalchi, Sabato / Scharenborg, Odette et al. | 2023
digital version
1: Implicit Vehicle Positioning with Cooperative Lidar Sensing
Barbieri, Luca / Tedeschini, Bernardo Camajori / Brambilla, Mattia / Nicoli, Monica et al. | 2023
digital version
1: Self-Supervised Guided Hypergraph Feature Propagation for Semi-Supervised Classification with Missing Node Features
Lei, Chengxiang / Fu, Sichao / Wang, Yuetian / Qiu, Wenhao / Hu, Yachen / Peng, Qinmu / You, Xinge et al. | 2023
digital version
1: Differential Analysis for Networks Obeying Conservation Laws
Rayas, Anirudh / Anguluri, Rajasekhar / Cheng, Jiajun / Dasarathy, Gautam et al. | 2023
digital version
1: Hardware-Limited Non-Uniform Task-Based Quantizers
Bernardo, Neil Irwin / Zhu, Jingge / Eldar, Yonina C. / Evans, Jamie et al. | 2023
digital version
1: Adaptive Noise Canceller Algorithm with SNR-Based Stepsize and Data-Dependent Averaging
Sugiyama, Akihiko et al. | 2023
digital version
1: Signal Processing And Quantum State Tomography on Noisy Devices
Shi, Wenbo / Malaney, Robert et al. | 2023
digital version
1: In-Sensor & Neuromorphic Computing Are all You Need for Energy Efficient Computer Vision
Datta, Gourav / Liu, Zeyu / Kaiser, Md Abdullah-Al / Kundu, Souvik / Mathai, Joe / Yin, Zihan / Jacob, Ajey P. / Jaiswal, Akhilesh R. / Beerel, Peter A. et al. | 2023
digital version
1: Adversarial Contrastive Distillation with Adaptive Denoising
Wang, Yuzheng / Chen, Zhaoyu / Yang, Dingkang / Liu, Yang / Liu, Siao / Zhang, Wenqiang / Qi, Lizhe et al. | 2023
digital version
1: On Designing Light-Weight Object Trackers Through Network Pruning: Use CNNS or Transformers?
Aggarwal, Saksham / Gupta, Taneesh / Sahu, Pawan K. / Chavan, Arnav / Tiwari, Rishabh / Prasad, Dilip K. / Gupta, Deepak K. et al. | 2023
digital version
1: Variational Inference Aided Estimation of Time Varying Channels
Bock, Benedikt / Baur, Michael / Rizzello, Valentina / Utschick, Wolfgang et al. | 2023
digital version
1: Class-Incremental Learning on Multivariate Time Series Via Shape-Aligned Temporal Distillation
Qiao, Zhongzheng / Hu, Minghui / Jiang, Xudong / Suganthan, Ponnuthurai Nagaratnam / Savitha, Ramasamy et al. | 2023
digital version
1: Inv-Senet: Invariant Self Expression Network for Clustering Under Biased Data
Singh, Ashutosh / Singh, Ashish / Masoomi, Aria / Imbiriba, Tales / Learned-Miller, Erik / Erdogmus, Deniz et al. | 2023
digital version
1: Fine-Grained Textual Knowledge Transfer to Improve RNN Transducers for Speech Recognition and Understanding
Sunder, Vishal / Thomas, Samuel / Kuo, Hong-Kwang J. / Kingsbury, Brian / Fosler-Lussier, Eric et al. | 2023
digital version
1: Training Neural Networks for Sequential Change-Point Detection
Lee, Junghwan / Xie, Yao / Cheng, Xiuyuan et al. | 2023
digital version
1: High-Resolution Neural Network Processing of LFM Radar Pulses
Akhtar, Jabran et al. | 2023
digital version
1: MLCGAN: Multi-Lead ECG Synthesis with Multi Label Conditional Generative Adversarial Network
Wu, Jian / Wang, Liping / Pan, Hailin / Wang, Binyu et al. | 2023
digital version
1: NRTSI: Non-Recurrent Time Series Imputation
Shan, Siyuan / Li, Yang / Oliva, Junier B. et al. | 2023
digital version
1: The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR
Sanabria, Ramon / Bogoychev, Nikolay / Markl, Nina / Carmantini, Andrea / Klejch, Ondrej / Bell, Peter et al. | 2023
digital version
1: Centralized Cascade Multi-Channel Noise Reduction and Acoustic Feedback Cancellation in a Wireless Acoustic Sensor And Actuator Network
Ruiz, Santiago / van Waterschoot, Toon / Moonen, Marc et al. | 2023
digital version
1: Intent Does Matter! Propagating High-Order Relations for Exploring Interest Preferences
Zheng, Xiangping / Liang, Xun / Wu, Bo / Feng, Junlan / Guo, Yuhui / Zhang, Sensen et al. | 2023
digital version
1: Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach
Wu, Shih-Lun / Yang, Yi-Hsuan et al. | 2023
digital version
1: Input-Dependent Dynamical Channel Association For Knowledge Distillation
Tang, Qiankun / Zhang, Yuan / Xu, Xiaogang / Wang, Jun / Guo, Yimin et al. | 2023
digital version
1: Robust Adaptive Beamforming with Proximal Method
Li, Ruifu / Cabric, Danijela et al. | 2023
digital version
1: Conformer-Based Target-Speaker Automatic Speech Recognition For Single-Channel Audio
Zhang, Yang / Puvvada, Krishna C. / Lavrukhin, Vitaly / Ginsburg, Boris et al. | 2023
digital version
1: An Isotropy Analysis for Self-Supervised Acoustic Unit Embeddings on the Zero Resource Speech Challenge 2021 Framework
Chen, Jianan / Sakti, Sakriani et al. | 2023
digital version
1: Bimodal Fusion Network for Basic Taste Sensation Recognition from Electroencephalography and Electromyography
Gao, Han / Zhao, Shuo / Li, Huiyan / Liu, Li / Wang, You / Hu, Ruifen / Zhang, Jin / Li, Guang et al. | 2023
digital version
1: Papez: Resource-Efficient Speech Separation with Auditory Working Memory
Oh, Hyunseok / Yi, Juheon / Lee, Youngki et al. | 2023
digital version
1: Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks
Villatoro-Tello, Esau / Madikeri, Srikanth / Zuluaga-Gomez, Juan / Sharma, Bidisha / Saeed Sarfjoo, Seyyed / Nigmatulina, Iuliia / Motlicek, Petr / Ivanov, Alexei V. / Ganapathiraju, Aravind et al. | 2023
digital version
1: Search for Efficient Deep Visual-Inertial Odometry Through Neural Architecture Search
Chen, Yu / Yang, Mingyu / Kim, Hun-Seok et al. | 2023
digital version
1: Prune Then Distill: Dataset Distillation with Importance Sampling
Sundar, Anirudh S / Keskin, Gokce / Chandak, Chander / Chen, I-Fan / Ghahremani, Pegah / Ghosh, Shalini et al. | 2023
digital version
1: CF-VTON: Multi-Pose Virtual Try-on with Cross-Domain Fusion
Du, Chenghu / Xiong, Shengwu et al. | 2023
digital version
1: LQGNET: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic Control
Casspi, Solomon Goldgraber / Husser, Oliver / Revach, Guy / Shlezinger, Nir et al. | 2023
digital version
1: Mingling or Misalignment? Temporal Shift for Speech Emotion Recognition with Pre-Trained Representations
Shen, Siyuan / Liu, Feng / Zhou, Aimin et al. | 2023
digital version
1: GTN-Bailando: Genre Consistent long-Term 3D Dance Generation Based on Pre-Trained Genre Token Network
Zhuang, Haolin / Lei, Shun / Xiao, Long / Li, Weiqin / Chen, Liyang / Yang, Sicheng / Wu, Zhiyong / Kang, Shiyin / Meng, Helen et al. | 2023
digital version
1: Streaming Multi-Channel Speech Separation with Online Time-Domain Generalized Wiener Filter
Luo, Yi et al. | 2023
digital version
1: String-Based Molecule Generation Via Multi-Decoder VAE
Kwon, Kisoo / Jeong, Kuhwan / Park, Junghyun / Na, Hwidong / Shin, Jinwoo et al. | 2023
digital version
1: Robust Spatiotemporal Fusion of Satellite Images via Convex Optimization
Isono, Ryosuke / Naganuma, Kazuki / Ono, Shunsuke et al. | 2023
digital version
1: A Sidecar Separator Can Convert A Single-Talker Speech Recognition System to A Multi-Talker One
Meng, Lingwei / Kang, Jiawen / Cui, Mingyu / Wang, Yuejiao / Wu, Xixin / Meng, Helen et al. | 2023
digital version
1: N2MVSNet: Non-Local Neighbors Aware Multi-View Stereo Network
Zhang, Zhe / Gao, Huachen / Hu, Yuxi / Wang, Ronggang et al. | 2023
digital version
1: Windowed Fourier Analysis for Signal Processing on Graph Bundles
Roddenberry, T. Mitchell / Segarra, Santiago et al. | 2023
digital version
1: Diffusion-Based Generative Speech Source Separation
Scheibler, Robin / Ji, Youna / Chung, Soo-Whan / Byun, Jaeuk / Choe, Soyeon / Choi, Min-Seok et al. | 2023
digital version
1: Shuffled Autoregression for Motion Interpolation
Huang, Shuo / Jia, Jia / Yang, Zongxin / Wang, Wei / Wu, Haozhe / Yang, Yi / Xing, Junliang et al. | 2023
digital version
1: Joint Estimation of DOA and Distance in Noisy Reverberant Conditions
Bu, Suliang / Zhao, Tuo / Zhao, Yunxin et al. | 2023
digital version
1: Change Point Detection with Neural Online Density-Ratio Estimator
Wang, Xiuheng / Borsoi, Ricardo Augusto / Richard, Cedric / Chen, Jie et al. | 2023
digital version
1: Towards Low-Power Heart Rate Estimation Based on User’s Demographics and Activity Level For Wearables
Pacheco, Andre G. C. / Cabello, Frank A. C. / Fonoff, Adriana M. O. / Rodrigues, Paula G. / Penatti, Otavio A. B. / Pinto, Paula R. et al. | 2023
digital version
1: ifUNet++: Iterative Feedback UNet++ for Infrared Small Target Detection
Weng, Zhangying / Li, Peng / Zhuang, Xin / Yan, Xuefeng / Gong, Lina / Xie, Haoran / Wei, Mingqiang et al. | 2023
digital version
1: Vararray Meets T-Sot: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition
Kanda, Naoyuki / Wu, Jian / Wang, Xiaofei / Chen, Zhuo / Li, Jinyu / Yoshioka, Takuya et al. | 2023
digital version
1: Binary Image Fast Perfect Recovery from Sparse 2D-DFT Coefficients
Pei, Soo-Chang / Chang, Kuo-Wei et al. | 2023
digital version
1: Time-Aware Multiway Adaptive Fusion Network for Temporal Knowledge Graph Question Answering
Liu, Yonghao / Liang, Di / Fang, Fang / Wang, Sirui / Wu, Wei / Jiang, Rui et al. | 2023
digital version
1: Exploiting Interactivity and Heterogeneity for Sleep Stage Classification Via Heterogeneous Graph Neural Network
Jia, Ziyu / Lin, Youfang / Zhou, Yuhan / Cai, Xiyang / Zheng, Peng / Li, Qiang / Wang, Jing et al. | 2023
digital version
1: When is Mimo Massive in Radar?
Shah, Jaimin / Cardone, Martina / Dytso, Alex / Rush, Cynthia et al. | 2023
digital version
1: Detecting Malicious Migration on Edge to Prevent Running Data Leakage
Wong, Yuchen / Shen, Qingni / Li, Cong / Liu, Cunzhan / Ai, Tianxiang et al. | 2023
digital version
1: PI-Trans: Parallel-Convmlp and Implicit-Transformation Based Gan for Cross-View Image Translation
Ren, Bin / Tang, Hao / Wang, Yiming / Li, Xia / Wang, Wei / Sebe, Mcu et al. | 2023
digital version
1: Interpolation of Spatial Room Impulse Responses Using Partial Optimal Transport
Geldert, Aaron / Meyer-Kahlen, Nils / Schlecht, Sebastian J. et al. | 2023
digital version
1: Knowledge-Augmented Frame Semantic Parsing with Hybrid Prompt-Tuning
Zhang, Rui / Sun, Yajing / Yang, Jingyuan / Peng, Wei et al. | 2023
digital version
1: HappyQuokka System for ICASSP 2023 Auditory EEG Challenge
Piao, Zhenyu / Kim, Miseul / Yoon, Hyungchan / Kang, Hong-Goo et al. | 2023
digital version
1: Deep Unfolded Tensor Robust PCA With Self-Supervised Learning
Dong, Harry / Shah, Megna / Donegan, Sean / Chi, Yuejie et al. | 2023
digital version
1: Continual Learning for On-Device Speech Recognition Using Disentangled Conformers
Diwan, Anuj / Yeh, Ching-Feng / Hsu, Wei-Ning / Tomasello, Paden / Choi, Eunsol / Harwath, David / Mohamed, Abdelrahman et al. | 2023
digital version
1: Robust Online Multiband Drift Estimation in Electrophysiology Data
Windolf, Charlie / Paulk, Angelique C. / Kfir, Yoav / Trautmann, Eric / Meszena, Domokos / Munoz, William / Caprara, Irene / Jamali, Mohsen / Boussard, Julien / Williams, Ziv M. et al. | 2023
digital version
1: Progressive Refinement Learning Based on Feature Cross Perception for Residential Areas Semantic Segmentation
Lyu, Xinran / Zhang, Libao et al. | 2023
digital version
1: Improving Adversarial Robustness with Hypersphere Embedding and Angular-Based Regularizations
Fakorede, Olukorede / Nirala, Ashutosh / Atsague, Modeste / Tian, Jin et al. | 2023
digital version
1: Graph Contrastive Learning with Learnable Graph Augmentation
Pu, Xinyan / Zhang, Ke / Shu, Huazhong / Coatrieux, Jean Louis / Kong, Youyong et al. | 2023
digital version
1: To Regularize or Not to Regularize: The Role of Positivity in Sparse Array Interpolation with a Single Snapshot
Hucumenoglu, Mehmet Can / Sarangi, Pulak / Rajamaki, Robin / Pal, Piya et al. | 2023
digital version
1: TeAw: Text-Aware Few-Shot Remote Sensing Image Scene Classification
Cheng, Kaihui / Yang, Chule / Fan, Zunlin / Wu, Dayan / Guan, Naiyang et al. | 2023
digital version
1: RIS Reflection and Placement Optimisation for Underlay D2D Communications in Cognitive Cellular Networks
Ghose, Sarbani / Mishra, Deepak / Maity, Santi P. / Alexandropoulos, George C. et al. | 2023
digital version
1: Not All Classes are Equal: Adaptively Focus-Aware Confidence for Semi-Supervised Object Detection
Zhu, Hui / Lu, Yongchun / Zhao, Hongyu / Zhao, Guoqing / Zhao, Xiaofang et al. | 2023
digital version
1: Adversarial Data Augmentation Using VAE-GAN for Disordered Speech Recognition
Jin, Zengrui / Xie, Xurong / Geng, Mengzhe / Wang, Tianzi / Hu, Shujie / Deng, Jiajun / Li, Guinan / Liu, Xunying et al. | 2023
digital version
1: Multi-Blank Transducers for Speech Recognition
Xu, Hainan / Jia, Fei / Majumdar, Somshubra / Watanabe, Shinji / Ginsburg, Boris et al. | 2023
digital version
1: End-to-End Word-Level Disfluency Detection and Classification in Children’s Reading Assessment
Venkatasubramaniam, Lavanya / Sunder, Vishal / Fosler-Lussier, Eric et al. | 2023
digital version
1: Speech Emotion Recognition via Heterogeneous Feature Learning
Liu, Ke / Wu, DongYa / Wang, Dekui / Feng, Jun et al. | 2023
digital version
1: A Study on Bias and Fairness in Deep Speaker Recognition
Hajavi, Amirhossein / Etemad, Ali et al. | 2023
digital version
1: Retinal Biomarkers for Detecting Diabetic Retinopaty Using Smartphone-Based Deep Learning Frameworks
Karakaya, Mahmut / Aygun, Ramazan S. et al. | 2023
digital version
1: Hierarchical Interactive Reconstruction Network for Video Compressive Sensing
Zhang, Tong / Cui, Wenxue / Hui, Chen / Jiang, Feng et al. | 2023
digital version
1: A Unified Uncertainty-Aware Exploration: Combining Epistemic and Aleatory Uncertainty
Malekzadeh, Parvin / Hou, Ming / Plataniotis, Konstantinos N. et al. | 2023
digital version
1: FedSD: A New Federated Learning Structure Used in Non-iid Data
Yi, Minmin / Ning, Houchun / Liu, Peng et al. | 2023
digital version
1: Towards Dialogue Modeling Beyond Text
Wu, Tongzi / Zhou, Yuhao / Ling, Wang / Yang, Hojin / Veloso, Joana / Sun, Lin / Huang, Ruixin / Guimaraes, Norberto / Sanner, Scott et al. | 2023
digital version
1: DPP-Based Client Selection for Federated Learning with NON-IID DATA
Zhang, Yuxuan / Xu, Chao / Yang, Howard H. / Wang, Xijun / Quek, Tony Q. S. et al. | 2023
digital version
1: Learning Robust Self-Attention Features for Speech Emotion Recognition with Label-Adaptive Mixup
Kang, Lei / Zhang, Lichao / Jiang, Dazhi et al. | 2023
digital version
1: Adaptive Eccm for Mitigating Smart Jammers
Jain, Shashwat / Pattanayak, Kunal / Krishnamurthy, Vikram / Berry, Christopher et al. | 2023
digital version
1: IAST: Instance Association Relying on Spatio-Temporal Features for Video Instance Segmentation
Chen, Junhao / Liu, Sheng / Chen, Ruixiang / Guo, Bingnan / Zhang, Feng et al. | 2023
digital version
1: Exploring the Role of Fricatives in Classifying Healthy Subjects and Patients with Amyotrophic Lateral Sclerosis and Parkinson’s Disease
Bhattacharjee, Tanuka / Belur, Yamini / Nalini, Atchayaram / Yadav, Ravi / Ghosh, Prasanta Kumar et al. | 2023
digital version
1: Stay In The Middle: A Semi-Supervised Model for CT Metal Artifact Reduction
Wang, Tao / Yu, Hui / Lu, Zexin / Zhang, Zhongzhou / Zhou, Jiliu / Zhang, Yi et al. | 2023
digital version
1: Neural Fourier Shift for Binaural Speech Rendering
Woo Lee, Jin / Lee, Kyogu et al. | 2023
digital version
1: Semi-Supervised Contrastive Learning with Soft Mask Attention for Facial Action Unit Detection
Liu, Zhongling / Liu, Rujie / Shi, Ziqiang / Liu, Liu / Mi, Xiaoyu / Murase, Kentaro et al. | 2023
digital version
1: Recursive Estimation of User Intent From Noninvasive Electroencephalography Using Discriminative Models
Smedemark-Margulies, Niklas / Celik, Basak / Imbiriba, Tales / Kocanaogullari, Aziz / Erdogmus, Deniz et al. | 2023
digital version
1: Diabetic Retinopathy Grading with Weakly-Supervised Lesion Priors
Hou, Junlin / Xiao, Fan / Xu, Jilan / Feng, Rui / Zhang, Yuejie / Zou, Haidong / Lu, Lina / Xue, Wenwen et al. | 2023
digital version
1: Prompt-Distiller: Few-Shot Knowledge Distillation for Prompt-Based Language Learners with Dual Contrastive Learning
Hou, Boyu / Wang, Chengyu / Chen, Xiaoqing / Qiu, Minghui / Feng, Liang / Huang, Jun et al. | 2023
digital version
1: Contextually-Rich Human Affect Perception Using Multimodal Scene Information
Bose, Digbalay / Hebbar, Rajat / Somandepalli, Krishna / Narayanan, Shrikanth et al. | 2023
digital version
1: Stabilising and Accelerating Light Gated Recurrent Units for Automatic Speech Recognition
Moumen, Adel / Parcollet, Titouan et al. | 2023
digital version
1: Sampling Order-Limited Signals on the Sphere
Khan, Muhammad Salaar Arif / Nadeem, Salman / Khalid, Zubair et al. | 2023
digital version
1: Sequence-Based Device-Free Gesture Recognition Framework for Multi-Channel Acoustic Signals
Yang, Zhizheng / Wang, Xun / Xia, Dongyu / Wang, Wei / Dai, Haipeng et al. | 2023
digital version
1: Using Adapters to Overcome Catastrophic Forgetting in End-to-End Automatic Speech Recognition
Eeckt, Steven Vander / Van Hamme, Hugo et al. | 2023
digital version
1: Can Knowledge of End-to-End Text-to-Speech Models Improve Neural Midi-to-Audio Synthesis Systems?
Shi, Xuan / Cooper, Erica / Wang, Xin / Yamagishi, Junichi / Narayanan, Shrikanth et al. | 2023
digital version
1: MGAT: Multi-Granularity Attention Based Transformers for Multi-Modal Emotion Recognition
Fan, Weiquan / Xing, Xiaofen / Cai, Bolun / Xu, Xiangmin et al. | 2023
digital version
1: HPFTN: Hierarchical Progressive Fusion Transformer Network for Video Denoising
Zhang, Shuaitao / Zhang, Yuan / Zhao, Zheng / Xie, Di / Pu, Shiliang et al. | 2023
digital version
1: Soft 2D-to-3D Delivery Using Deep Graph Neural Networks for Holographic-Type Communication
Fujihashi, Takuya / Koike-Akino, Toshiaki / Watanabe, Takashi et al. | 2023
digital version
1: CLAP Learning Audio Concepts from Natural Language Supervision
Elizalde, Benjamin / Deshmukh, Soham / Ismail, Mahmoud Al / Wang, Huaming et al. | 2023
digital version
1: Soft Dynamic Time Warping for Multi-Pitch Estimation and Beyond
Krause, Michael / Weis, Christof / Muller, Meinard et al. | 2023
digital version
1: SPECTRANET-SO(3): Learning Satellite Orientation from Optical Spectra by Implicitly Modeling Mutually Exclusive Probability Distributions on The Rotation Manifold
Phelps, Matthew / Swindle, Thomas / Gazak, J. Zachary / Vandenberg, Andrew / Fletcher, Justin et al. | 2023
digital version
1: Channel Estimation in Massive MIMO with Heavy-Tailed Noise: Gaussian-Mixture Versus Cauchy Models
Gulgun, Ziya / Larsson, Erik G. et al. | 2023
digital version
1: Speech Intelligibility Classifiers from 550k Disordered Speech Samples
Venugopalan, Subhashini / Tobin, Jimmy / Yang, Samuel J. / Seaver, Katie / Cave, Richard J.N. / Jiang, Pan-Pan / Zeghidour, Neil / Heywood, Rus / Green, Jordan / Brenner, Michael P. et al. | 2023
digital version
1: Filler Word Detection with Hard Category Mining and Inter-Category Focal Loss
Zhao, Zhiyuan / Wu, Lijun / Tang, Chuanxin / Yin, Dacheng / Zhao, Yucheng / Luo, Chong et al. | 2023
digital version
1: Modular Conformer Training for Flexible End-to-End ASR
Audhkhasi, Kartik / Farris, Brian / Ramabhadran, Bhuvana / Moreno, Pedro J. et al. | 2023
digital version
1: Untargeted Backdoor Attack Against Object Detection
Luo, Chengxiao / Li, Yiming / Jiang, Yong / Xia, Shu-Tao et al. | 2023
digital version
1: Cross-Modality depth Estimation via Unsupervised Stereo RGB-to-infrared Translation
Tang, Shi / Ye, Xinchen / Xue, Fei / Xu, Rui et al. | 2023
digital version
1: A Dynamic Cross-Scale Transformer with Dual-Compound Representation for 3D Medical Image Segmentation
Zhang, Ruixia / Wang, Zhiqiong / Wang, Zhongyang / Xin, Junchang et al. | 2023
digital version
1: Generic Dependency Modeling for Multi-Party Conversation
Shen, Weizhou / Quan, Xiaojun / Yang, Ke et al. | 2023
digital version
1: WL-MSR: Watch and Listen for Multimodal Subtitle Recognition
Liu, Jiawei / Wang, Hao / Wang, Weining / He, Xingjian / Liu, Jing et al. | 2023
digital version
1: Residual Hybrid Attention Network for Compression Artifact Reduction
Luo, Bingchun / Yu, Wei et al. | 2023
digital version
1: Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition
Sahai, Saumya Y. / Liu, Jing / Muniyappa, Thejaswi / Sathyendra, Kanthashree M. / Alexandridis, Anastasios / Strimel, Grant P. / McGowan, Ross / Rastrow, Ariya / Chang, Feng-Ju / Mouchtaris, Athanasios et al. | 2023
digital version
1: Look and Think: Intrinsic Unification of Self-Attention and Convolution for Spatial-Channel Specificity
Gao, Xiang / Lin, Honghui / Li, Yu / Fang, Ruiyan / Zhang, Xin et al. | 2023
digital version
1: Higher-Order Link Prediction Via Learnable Maximum Mean Discrepancy
Karanikolas, Georgios V. / Pages-Zamora, Alba / Giannakis, Georgios B. et al. | 2023
digital version
1: EI²SR: Learning an Enhanced Intra-Instance Semantic Relationship for Arbitrary-Shaped Scene Text Detection
Shu, Yan / Liu, Shaohui / Zhou, Yu / Xu, Honglei / Jiang, Feng et al. | 2023
digital version
1: Towards Real-Time Single-Channel Speech Separation in Noisy and Reverberant Environments
Neri, Julian / Braun, Sebastian et al. | 2023
digital version
1: Comparative Layer-Wise Analysis of Self-Supervised Speech Models
Pasad, Ankita / Shi, Bowen / Livescu, Karen et al. | 2023
digital version
1: Maximum Likelihood Distillation for Robust Modulation Classification
Maroto, Javier / Bovet, Gerome / Frossard, Pascal et al. | 2023
digital version
1: Stochastic Optimization of Vector Quantization Methods in Application to Speech and Image Processing
Vali, Mohammad Hassan / Backstrom, Tom et al. | 2023
digital version
1: Deep Fusion of Multi-Object Densities Using Transformer
Li, Lechi / Dai, Chen / Xia, Yuxuan / Svensson, Lennart et al. | 2023
digital version
1: Core: Transferable Long-Range Time Series Forecasting Enhanced by Covariates-Guided Representation
Li, Xin-Yi / Zhong, Pei-Nan / Chen, Di / Yang, Yu-Bin et al. | 2023
digital version
1: Toward Privacy-Enhancing Ambulatory-Based Well-Being Monitoring: Investigating User Re-Identification Risk in Multimodal Data
Pranjal, Ravi / Seshadri, Ranjana / Kumar Sanath Kumar Kadaba, Rakesh / Feng, Tiantian / Narayanan, Shrikanth S. / Chaspari, Theodora et al. | 2023
digital version
1: Mutually Guided Few-Shot Learning For Relational Triple Extraction
Yang, Chengmei / Jiang, Shuai / He, Bowei / Ma, Chen / He, Lianghua et al. | 2023
digital version
1: Guide and Select: A Transformer-Based Multimodal Fusion Method for Points of Interest Description Generation
Liu, Hanqing / Wang, Wei / Hu, Niu / Zheng, Hai-Tao / Xie, Rui / Wu, Wei / Bai, Yang et al. | 2023
digital version
1: Interpretation of Neural Networks is Susceptible to Universal Adversarial Perturbations
Oskouie, Haniyeh Ehsani / Farnia, Farzan et al. | 2023
digital version
1: High-Resolution Embedding Extractor for Speaker Diarisation
Heo, Hee-Soo / Kwon, Youngki / Lee, Bong-Jin / Kim, You Jin / Jung, Jee-Weon et al. | 2023
digital version
1: Prosody-Controllable Spontaneous TTS with Neural HMMS
Lameris, Harm / Mehta, Shivam / Henter, Gustav Eje / Gustafson, Joakim / Szekely, Eva et al. | 2023
digital version
1: Faster Than Fast: Accelerating the Griffin-Lim Algorithm
Nenov, Rossen / Nguyen, Dang-Khoa / Balazs, Peter et al. | 2023
digital version
1: Scalable and Secure Federated XGBoost
Nguyen, Quang Minh / Khanh Le, Nhan / Nguyen, Lam M. et al. | 2023
digital version
1: A Generalized Subspace Distribution Adaptation Framework for Cross-Corpus Speech Emotion Recognition
Li, Shaokai / Song, Peng / Ji, Liang / Jin, Yun / Zheng, Wenming et al. | 2023
digital version
1: ClassA Entropy for the Analysis of Structural Complexity of Physiological Signals
Xiao, Hongjian / Li, Ling / Mandic, Danilo P. et al. | 2023
digital version
1: Improving Disfluency Detection with Multi-Scale Self Attention and Contrastive Learning
Wang, Peiying / Duan, Chaoqun / Chen, Meng / He, Xiaodong et al. | 2023
digital version
1: Time-Resolved FMRI Shared Response Model Using Gaussian Process Factor Analysis
Ebrahimi, MohammadReza / Calarco, Navona / Hawco, Colin / Voineskos, Aristotle / Khisti, Ashish et al. | 2023
digital version
1: Dynamic TF-TDNN: Dynamic Time Delay Neural Network Based on Temporal-Frequency Attention for Dialect Recognition
Liao, Chao / Huang, Jinwen / Yuan, Huan / Yao, Peng / Tan, Jianchao / Zhang, Dawei / Deng, Feng / Wang, Xiaorui / Song, Chengru et al. | 2023
digital version
1: Contrastive Learning of Functionality-Aware Code Embeddings
Li, Yiyang / Wu, Hongqiu / Zhao, Hai et al. | 2023
digital version
1: Ultrasound Image Quality Control Using Speech-Assisted Switchable CycleGAN
Huh, Jaeyoung / Khan, Shujaat / Sun Lee, Eun / Chul Ye, Jong et al. | 2023
digital version
1: Super Dilated Nested Arrays with Ideal Critical Weights and Increased Degrees of Freedom
Shaalan, Ahmed M. A. / Du, Jun et al. | 2023
digital version
1: Transient Dictionary Learning for Compressed Time-of-Flight Imaging
Conde, Miguel Heredia et al. | 2023
digital version
1: Does Your Model Think Like an Engineer? Explainable AI for Bearing Fault Detection with Deep Learning
Decker, Thomas / Lebacher, Michael / Tresp, Volker et al. | 2023
digital version
1: FAPM: Fast Adaptive Patch Memory for Real-Time Industrial Anomaly Detection
Kim, Donghyeong / Park, Chaewon / Cho, Suhwan / Lee, Sangyoun et al. | 2023
digital version
1: A Distributed Adaptive Algorithm for Non-Smooth Spatial Filtering Problems
Hovine, Charles / Bertrand, Alexander et al. | 2023
digital version
1: Graph Learning from Gaussian and Stationary Graph Signals
Buciulea, Andrei / Marques, Antonio G. et al. | 2023
digital version
1: Spatio-Temporal Attention in Multi-Granular Brain Chronnectomes For Detection of Autism Spectrum Disorder
Orme-Rogers, James / Srivastava, Ajitesh et al. | 2023
digital version
1: Priv-Aug-Shap-ECGResNet: Privacy Preserving Shapley-Value Attributed Augmented Resnet for Practical Single-Lead Electrocardiogram Classification
Ukil, Arijit / Marin, Leandro / Jara, Antonio J. et al. | 2023
digital version
1: Efficient Online Convolutional Dictionary Learning Using Approximate Sparse Components
Veshki, Farshad G. / Vorobyov, Sergiy A. et al. | 2023
digital version
1: Low-Latency Electrolaryngeal Speech Enhancement Based on Fastspeech2-Based Voice Conversion and Self-Supervised Speech Representation
Kobayashi, Kazuhiro / Hayashi, Tomoki / Toda, Tomoki et al. | 2023
digital version
1: Zero-Shot Personalized Lip-To-Speech Synthesis with Face Image Based Voice Control
Sheng, Zheng-Yan / Ai, Yang / Ling, Zhen-Hua et al. | 2023
digital version
1: mmWave Wi-Fi Trajectory Estimation with Continuous-Time Neural Dynamic Learning
Vaca-Rubio, Cristian J. / Wang, Pu / Koike-Akino, Toshiaki / Wang, Ye / Boufounos, Petros / Popovski, Petar et al. | 2023
digital version
1: Efficient Intelligibility Evaluation Using Keyword Spotting: A Study on Audio-Visual Speech Enhancement
Valentini-Botinhao, Cassia / Aldana Blanco, Andrea Lorena / Klejch, Ondrej / Bell, Peter et al. | 2023
digital version
1: D-3DLD: Depth-Aware Voxel Space Mapping for Monocular 3D Lane Detection with Uncertainty
Kim, Nayeon / Byeon, Moonsub / Ji, Daehyun / Oh, Dokwan et al. | 2023
digital version
1: Finer-Grained Decomposition for Parallel Quantum Mimo Processing
Kim, Minsung / Jamieson, Kyle et al. | 2023
digital version
1: Deep Root Music Algorithm for Data-Driven Doa Estimation
Shmuel, Dor H. / Merkofer, Julian P. / Revach, Guy / van Sloun, Ruud J. G. / Shlezinger, Nir et al. | 2023
digital version
1: Police: Provably Optimal Linear Constraint Enforcement For Deep Neural Networks
Balestriero, Randall / LeCun, Yann et al. | 2023
digital version
1: A Novel Metric For Evaluating Audio Caption Similarity
Bhosale, Swapnil / Chakraborty, Rupayan / Kopparapu, Sunil Kumar et al. | 2023
digital version
1: Generalized Two-Stage Particle Filter for High Dimensions
Iloska, Marija / Bugallo, Monica F. et al. | 2023
digital version
1: Mitigating Unintended Memorization in Language Models Via Alternating Teaching
Liu, Zhe / Zhang, Xuedong / Peng, Fuchun et al. | 2023
digital version
1: Adaptive Multi-Corpora Language Model Training for Speech Recognition
Ma, Yingyi / Liu, Zhe / Zhang, Xuedong et al. | 2023
digital version
1: Domain Adaptation without Catastrophic Forgetting on a Small-Scale Partially-Labeled Corpus for Speech Emotion Recognition
Zhu, Zhi / Sato, Yoshinao et al. | 2023
digital version
1: SingNet: a real-time Singing Voice beat and Downbeat Tracking System
Heydari, Mojtaba / Wang, Ju-Chiang / Duan, Zhiyao et al. | 2023
digital version
1: PCQA-Graphpoint: Efficient Deep-Based Graph Metric for Point Cloud Quality Assessment
Tliba, Marouane / Chetouani, Aladine / Valenzise, Giuseppe / Dufaux, Frederic et al. | 2023
digital version
1: Adaptive Step-Size Methods for Compressed SGD
Subramaniam, Adarsh M. / Magesh, Akshayaa / Veeravalli, Venugopal V. et al. | 2023
digital version
1: Leveraging Multiple Sources in Automatic African American English Dialect Detection for Adults and Children
Johnson, Alexander / Shetty, Vishwas M. / Ostendorf, Mari / Alwan, Abeer et al. | 2023
digital version
1: Adaptive Simulated Annealing Through Alternating Rényi Divergence Minimization
Guilmeau, Thomas / Chouzenoux, Emilie / Elvira, Victor et al. | 2023
digital version
1: NAS-DYMC: NAS-Based Dynamic Multi-Scale Convolutional Neural Network for Sound Event Detection
Wang, Jun / Yao, Peng / Deng, Feng / Tan, Jianchao / Song, Chengru / Wang, Xiaorui et al. | 2023
digital version
1: Wespeaker: A Research and Production Oriented Speaker Embedding Learning Toolkit
Wang, Hongji / Liang, Chengdong / Wang, Shuai / Chen, Zhengyang / Zhang, Binbin / Xiang, Xu / Deng, Yanlei / Qian, Yanmin et al. | 2023
digital version
1: Privacy Preserving Face Recognition with Lensless Camera
Henry, Chris / Asif, M. Salman / Li, Zhu et al. | 2023
digital version
1: Exploiting CCTV Cameras for Hand Hygiene Recognition in ICU
Huang, Weijun / Huang, Jia / Wang, Guowei / Lu, Hongzhou / He, Min / Wang, Wenjin et al. | 2023
digital version
1: Learning Sparse auto-Encoders for Green AI image coding
Gille, Cyprien / Guyard, Frederic / Antonini, Marc / Barlaud, Michel et al. | 2023
digital version
1: 3D Audio Signal Processing Systems for Speech Enhancement and Sound Localization and Detection
Bai, Jisheng / Huang, Siwei / Yin, Han / Jia, Yafei / Wang, Mou / Chen, Jianfeng et al. | 2023
digital version
1: Quantum Variational Bayes on Manifolds
Lopatnikova, Anna / Tran, Minh-Ngoc et al. | 2023
digital version
1: Exploring Complementary Features in Multi-Modal Speech Emotion Recognition
Wang, Suzhen / Ma, Yifeng / Ding, Yu et al. | 2023
digital version
1: Deep Spatio-Temporal Multiplex Graph Learning for Cardiac Imaging Classification
Banus, Jaume / Ogier, Augustin / Hullin, Roger / Meyer, Philippe / van Heeswijk, Ruud B. / Richiardi, Jonas et al. | 2023
digital version
1: Sign Language Recognition via Deformable 3D Convolutions and Modulated Graph Convolutional Networks
Papadimitriou, Katerina / Potamianos, Gerasimos et al. | 2023
digital version
1: Unsupervised word Segmentation Based on Word Influence
Yan, Ruohao / Zhang, Huaping / Silamu, Wushour / Hamdulla, Askar et al. | 2023
digital version
1: TAPE: An End-to-End Timbre-Aware Pitch Estimator
Tamer, Nazif Can / Ozer, Yigitcan / Muller, Meinard / Serra, Xavier et al. | 2023
digital version
1: Text Classification In The Wild: A Large-Scale Long-Tailed Name Normalization Dataset
Qi, Jiexing / Li, Shuhao / Guo, Zhixin / Huang, Yusheng / Zhou, Chenghu / Zhang, Weinan / Wang, Xinbing / Lin, Zhouhan et al. | 2023
digital version
1: Designing and Evaluating Speech Emotion Recognition Systems: A Reality Check Case Study with IEMOCAP
Antoniou, Nikolaos / Katsamanis, Athanasios / Giannakopoulos, Theodoros / Narayanan, Shrikanth et al. | 2023
digital version
1: TEA-PSE 3.0: Tencent-Ethereal-Audio-Lab Personalized Speech Enhancement System For ICASSP 2023 Dns-Challenge
Ju, Yukai / Chen, Jun / Zhang, Shimin / He, Shulin / Rao, Wei / Zhu, Weixin / Wang, Yannan / Yu, Tao / Shang, Shidong et al. | 2023
digital version
1: General or Specific? Investigating Effective Privacy Protection in Federated Learning for Speech Emotion Recognition
Tan, Chao / Cao, Yang / Li, Sheng / Yoshikawa, Masatoshi et al. | 2023
digital version
1: AST-SED: An Effective Sound Event Detection Method Based on Audio Spectrogram Transformer
Li, Kang / Song, Yan / Dai, Li-Rong / McLoughlin, Ian / Fang, Xin / Liu, Lin et al. | 2023
digital version
1: Nested Attention Network with Graph Filtering for Visual Question and Answering
Lu, Jing / Wu, Chunlei / Wang, Leiquan / Yuan, Shaozu / Wu, Jie et al. | 2023
digital version
1: Defending Against Universal Patch Attacks by Restricting Token Attention in Vision Transformers
Yu, Hongwei / Chen, Jiansheng / Ma, Huimin / Yu, Cheng / Ding, Xinlong et al. | 2023
digital version
1: M²-CTTS: End-to-End Multi-Scale Multi-Modal Conversational Text-to-Speech Synthesis
Xue, Jinlong / Deng, Yayue / Wang, Fengping / Li, Ya / Gao, Yingming / Tao, Jianhua / Sun, Jianqing / Liang, Jiaen et al. | 2023
digital version
1: Effectiveness of Mining Audio and Text Pairs from Public Data for Improving ASR Systems for Low-Resource Languages
Bhogale, Kaushal / Raman, Abhigyan / Javed, Tahir / Doddapaneni, Sumanth / Kunchukuttan, Anoop / Kumar, Pratyush / Khapra, Mitesh M. et al. | 2023
digital version
1: Effectiveness of Inter- and Intra-Subarray Spatial Features for Acoustic Scene Classification
Kawamura, Takao / Kinoshita, Yuma / Ono, Nobutaka / Scheibler, Robin et al. | 2023
digital version
1: Bayesian Network Modeling and Prediction of Transitions Within the Homelessness System
Rahman, Khandker Sadia / Zois, Daphney-Stavroula / Chelmis, Charalampos et al. | 2023
digital version
1: Adaptive Knowledge Distillation Between Text and Speech Pre-Trained Models
Ni, Jinjie / Ma, Yukun / Wang, Wen / Chen, Qian / Ng, Dianwen / Lei, Han / Nguyen, Trung Hieu / Zhang, Chong / Ma, Bin / Cambria, Erik et al. | 2023
digital version
1: Tell Model Where to Attend: Improving Interpretability of Aspect-Based Sentiment Classification via Small Explanation Annotations
Cheng, Zhenxiao / Zhou, Jie / Wu, Wen / Chen, Qin / He, Liang et al. | 2023
digital version
1: Comparative Study of IRS Assisted Opportunistic Communications Over i.i.d. and los channels
Yashvanth, L. / Murthy, Chandra R. et al. | 2023
digital version
1: Multi-Head Attention and GRU for Improved Match-Mismatch Classification of Speech Stimulus and EEG Response
Borsdorf, Marvin / Pahuja, Saurav / Ivucic, Gabriel / Cai, Siqi / Li, Haizhou / Schultz, Tanja et al. | 2023
digital version
1: DTTR: Detecting Text with Transformers
Yang, Jing / You, Zhiqiang / Zhong, Zhiwei / Liu, Peng / Mei, Langqi / Huang, Shenguang et al. | 2023
digital version
1: DST: Deformable Speech Transformer for Emotion Recognition
Chen, Weidong / Xing, Xiaofen / Xu, Xiangmin / Pang, Jianxin / Du, Lan et al. | 2023
digital version
1: Cross-Training: A Semi-Supervised Training Scheme for Speech Recognition
Khorram, Soheil / Tripathi, Anshuman / Kim, Jaeyoung / Lu, Han / Zhang, Qian / Prabhavalkar, Rohit / Sak, Hasim et al. | 2023
digital version
1: Wav2Seq: Pre-Training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages
Wu, Felix / Kim, Kwangyoun / Watanabe, Shinji / Han, Kyu J. / McDonald, Ryan / Weinberger, Kilian Q. / Artzi, Yoav et al. | 2023
digital version
1: MLP-GAN for Brain Vessel Image Segmentation
Xie, Bin / Tang, Hao / Duan, Bin / Cai, Dawen / Yan, Yan et al. | 2023
digital version
1: Stacking-Based Attention Temporal Convolutional Network for Action Segmentation
Yang, Liu / Jiang, Yu / Hong, Junkun / Wu, Zhenjie / Yang, Zhan / Long, Jun et al. | 2023
digital version
1: Probabilistic Back-ends for Online Speaker Recognition and Clustering
Sholokhov, Alexey / Kuzmin, Nikita / Lee, Kong Aik / Chng, Eng Siong et al. | 2023
digital version
1: Information Extraction from Pill Bottle Images via Text Stitching
Gupta, Rahul Kumar / Roy, Shilka / Jos, Sujit / S., Unni V. / Lavoie, Lauren / Medous, Frederic / Smith, Walter et al. | 2023
digital version
1: Semi-Supervised Remote Sensing Image Change Detection Using Mean Teacher Model for Constructing Pseudo-Labels
Mao, Zan / Tong, Xinyu / Luo, Ze et al. | 2023
digital version
1: Analysing Discrete Self Supervised Speech Representation For Spoken Language Modeling
Sicherman, Amitay / Adi, Yossi et al. | 2023
digital version
1: Flowpose: Conditional Normalizing Flows for 3D Human Pose and Shape Estimation from Monocular Videos
Du, Yaoyao / Zhang, Zixiao / Li, Zhihao / Wei, Peng / Liao, Qingmin / Yang, Wenming et al. | 2023
digital version
1: Glacier: Glass-Box Transformer for Interpretable Dynamic Neuroimaging
Mahmood, Usman / Fu, Zening / Calhoun, Vince / Plis, Sergey et al. | 2023
digital version
1: NBA-OMP: Near-Field Beam-Split-Aware Orthogonal Matching Pursuit for Wideband THz Channel Estimation
Elbir, Ahmet M. / Vijay Mishra, Kumar / Chatzinotas, Symeon et al. | 2023
digital version
1: MUG: A General Meeting Understanding and Generation Benchmark
Zhang, Qinglin / Deng, Chong / Liu, Jiaqing / Yu, Hai / Chen, Qian / Wang, Wen / Yan, Zhijie / Liu, Jinglin / Ren, Yi / Zhao, Zhou et al. | 2023
digital version
1: Automatic Classification of Vocal Intensity Category from Speech
Kodali, Manila / Kadiri, Sudarsana Reddy / Laaksonen, Laura / Alku, Paavo et al. | 2023
digital version
1: A Template Matching Approach for Reference Picture Padding in Video Coding
Horst, Nicolas / Das, Priyanka / Wien, Mathias et al. | 2023
digital version
1: An Efficient Relay Selection Scheme for Relay-assisted HARQ
Ding, Weihang / Shikh-Bahaei, Mohammad et al. | 2023
digital version
1: Sora: Scalable Black-Box Reachability Analyser on Neural Networks
Xu, Peipei / Wang, Fu / Ruan, Wenjie / Zhang, Chi / Huang, Xiaowei et al. | 2023
digital version
1: The First Pathloss Radio Map Prediction Challenge
Yapar, Cagkan / Jaensch, Fabian / Levie, Ron / Kutyniok, Gitta / Caire, Giuseppe et al. | 2023
digital version
1: U-Shiftformer: Brain Tumor Segmentation Using A Shifted Attention Mechanism
Lin, Chih-Wei / Chen, Zhongsheng et al. | 2023
digital version
1: Does Human Speech Follow Benford’s Law?
Hsu, Leo / Berisha, Visar et al. | 2023
digital version
1: Conversation-Oriented ASR with Multi-Look-Ahead CBS Architecture
Zhao, Huaibo / Fujie, Shinya / Ogawa, Tetsuji / Sakuma, Jin / Kida, Yusuke / Kobayashi, Tetsunori et al. | 2023
digital version
1: Towards a Unified Training for Levenshtein Transformer
Zheng, Kangjie / Wang, Longyue / Wang, Zhihao / Chen, Binqi / Zhang, Ming / Tu, Zhaopeng et al. | 2023
digital version
1: A Principled Approach to Model Validation in Domain Generalization
Lyu, Boyang / Nguyen, Thuan / Scheutz, Matthias / Ishwar, Prakash / Aeron, Shuchin et al. | 2023
digital version
1: Neural Networks with Quantization Constraints
Hounie, Ignacio / Elenter, Juan / Ribeiro, Alejandro et al. | 2023
digital version
1: Direct Position Determination with One-Bit Signal for Multiple Targets
Ni, Lihua / Zhang, Di / Xing, Tianyi / Ran, Maoyan / Liu, Ning / Wan, Qun et al. | 2023
digital version
1: Learning to Balance the Global Coherence and Informativeness in Knowledge-Grounded Dialogue Generation
Niu, Chenxu / Hu, Yue / Peng, Wei / Xie, Yuqiang et al. | 2023
digital version
1: Backdoor Attack Against Automatic Speaker Verification Models in Federated Learning
Meng, Dan / Wang, Xue / Wang, Jun et al. | 2023
digital version
1: Wireless Deep Speech Semantic Transmission
Xiao, Zixuan / Yao, Shengshi / Dai, Jincheng / Wang, Sixian / Niu, Kai / Zhang, Ping et al. | 2023
digital version
1: Context-Aware Fine-Tuning of Self-Supervised Speech Models
Shon, Suwon / Wu, Felix / Kim, Kwangyoun / Sridhar, Prashant / Livescu, Karen / Watanabe, Shinji et al. | 2023
digital version
1: Improved Acoustic-to-Articulatory Inversion Using Representations from Pretrained Self-Supervised Learning Models
Udupa, Sathvik / C, Siddarth / Ghosh, Prasanta Kumar et al. | 2023
digital version
1: Lightweight Annotation and Class Weight Training for Automatic Estimation of Alarm Audibility in Noise
Effa, Francois / Serizel, Romain / Arz, Jean-Pierre / Grimault, Nicolas et al. | 2023
digital version
1: Disentangled Training with Adversarial Examples for Robust Small-Footprint Keyword Spotting
Wang, Zhenyu / Wan, Li / Zhang, Biqiao / Huang, Yiteng / Li, Shang-Wen / Sun, Ming / Lei, Xin / Yang, Zhaojun et al. | 2023
digital version
1: Numerical Semantic Modeling for Implicit Discourse Relation Recognition
Wang, Chenxu / Jian, Ping / Wang, Hai et al. | 2023
digital version
1: Stereoscopic Video Retargeting Based on Camera Motion Classification
Cai, Linghui / Tang, Zhenhua et al. | 2023
digital version
1: Spoofed Training Data for Speech Spoofing Countermeasure Can Be Efficiently Created Using Neural Vocoders
Wang, Xin / Yamagishi, Junichi et al. | 2023
digital version
1: Massively Multilingual Shallow Fusion with Large Language Models
Hu, Ke / Sainath, Tara N. / Li, Bo / Du, Nan / Huang, Yanping / Dai, Andrew M. / Zhang, Yu / Cabrera, Rodrigo / Chen, Zhifeng / Strohman, Trevor et al. | 2023
digital version
1: SDTN: Speaker Dynamics Tracking Network for Emotion Recognition in Conversation
Chen, Jiawei / Huang, Peijie / Huang, Guotai / Li, Qianer / Xu, Yuhong et al. | 2023
digital version
1: Improving CTC-Based ASR Models With Gated Interlayer Collaboration
Yang, Yuting / Li, Yuke / Du, Binbin et al. | 2023
digital version
1: Restoration of Time-Varying Graph Signals using Deep Algorithm Unrolling
Kojima, Hayate / Noguchi, Hikari / Yamada, Koki / Tanaka, Yuichi et al. | 2023
digital version
1: A Dual-Path Transformer Network for Scene Text Detection
Lin, Jingyu / Yan, Yan / Wang, Hanzi et al. | 2023
digital version
1: Audio-Visual Speech Enhancement with a Deep Kalman Filter Generative Model
Golmakani, Ali / Sadeghi, Mostafa / Serizel, Romain et al. | 2023
digital version
1: Ideal: Improved Dense Local Contrastive Learning For Semi-Supervised Medical Image Segmentation
Basak, Hritam / Chattopadhyay, Soumitri / Kundu, Rohit / Nag, Sayan / Mallipeddi, Rammohan et al. | 2023
digital version
1: Embedding a Differentiable Mel-Cepstral Synthesis Filter to a Neural Speech Synthesis System
Yoshimura, Takenori / Takaki, Shinji / Nakamura, Kazuhiro / Oura, Keiichiro / Hono, Yukiya / Hashimoto, Kei / Nankaku, Yoshihiko / Tokuda, Keiichi et al. | 2023
digital version
1: Symbol Level Precoding in the RF Domain for Low Hardware Complexity RIS-Assisted MU-MISO Systems
Tsinos, Christos G. / Tsiftsis, Theodoros A. / Schober, Robert et al. | 2023
digital version
1: CTCBERT: Advancing Hidden-Unit Bert with CTC Objectives
Fan, Ruchao / Wang, Yiming / Gaur, Yashesh / Li, Jinyu et al. | 2023
digital version
1: Sine: Similarity-Regularized Intra-Class Exploitation for Cross-Granularity Few-Shot Learning
Yang, Jinhai / Yang, Hua et al. | 2023
digital version
1: Topological Signal Processing Over Weighted Simplicial Complexes
Battiloro, Claudio / Sardellitti, Stefania / Barbarossa, Sergio / Lorenzo, Paolo Di et al. | 2023
digital version
1: Neural Mode Estimation
Sun, Peng / Wen, Zhenyu / Zhou, Yejian / Hong, Zhen / Lin, Tao et al. | 2023
digital version
1: Meta Learning with Adaptive Loss Weight for Low-Resource Speech Recognition
Wang, Qiulin / Hu, Wenxuan / Li, Lin / Hong, Qingyang et al. | 2023
digital version
1: An Auto-Encoder Based Method for Camera Fingerprint Compression
Zhang, Kaixuan / Liu, Zihan / Hu, Jiashang / Wang, Shilin et al. | 2023
digital version
1: A Transformer-Based E2E SLU Model for Improved Semantic Parsing
Istaiteh, Othman / Kussad, Yasmeen / Daqour, Yahya / Habib, Maria / Habash, Mohammad / Gowda, Dhananjaya et al. | 2023
digital version
1: Procontext: Exploring Progressive Context Transformer for Tracking
Lan, Jin-Peng / Cheng, Zhi-Qi / He, Jun-Yan / Li, Chenyang / Luo, Bin / Bao, Xu / Xiang, Wangmeng / Geng, Yifeng / Xie, Xuansong et al. | 2023
digital version
1: Achieving Fair Speech Emotion Recognition via Perceptual Fairness
Chien, Woan-Shiuan / Lee, Chi-Chun et al. | 2023
digital version
1: Unsupervised Pre-Training for Data-Efficient Text-to-Speech on Low Resource Languages
Park, Seongyeon / Song, Myungseo / Kim, Bohyung / Oh, Tae-Hyun et al. | 2023
digital version
1: Image Sharing Chain Detection VIA Sequence-To-Sequence Model
You, Jiaxiang / Li, Yuanman / Liang, Rongqin / Tan, Yuxuan / Zhou, Jiantao / Li, Xia et al. | 2023
digital version
1: NCL: Textual Backdoor Defense Using Noise-Augmented Contrastive Learning
Zhai, Shengfang / Shen, Qingni / Chen, Xiaoyi / Wang, Weilong / Li, Cong / Fang, Yuejian / Wu, Zhonghai et al. | 2023
digital version
1: Higher-Order Spatio-Temporal Neural Networks for Covid-19 Forecasting
Chen, Yuzhou / Batsakis, Sotiris / Poor, H. Vincent et al. | 2023
digital version
1: Regression to Classification: Waveform Encoding for Neural Field-Based Audio Signal Representation
Kim, TaeSoo / Rho, Daniel / Lee, Gahui / Park, JaeHan / Ko, Jong Hwan et al. | 2023
digital version
1: Visual Answer Localization with Cross-Modal Mutual Knowledge Transfer
Weng, Yixuan / Li, Bin et al. | 2023
digital version

How to get this title?

Check access

Download

Commercial Copyright fee: €30.47 Basic fee: €4.00 Total price: €34.47

Academic Copyright fee: €30.47 Basic fee: €2.00 Total price: €32.47

Quicklinks

Borrowing & Ordering

Quicklinks

Search & discover

Quicklinks

Learning & working

Quicklinks

Publishing & Archiving

Quicklinks

About the TIB

Quicklinks

Research & Development

Efficient Feature Extraction for Non-Maximum Suppression in Visual Person Detection (English)

How to get this title?

Export, share and cite

More details on this result

Table of contents

Table of contents conference proceedings

Similar titles

How to get this title?

Export, share and cite