Rongjie Huang 个人学术档案

引用次数

	总计	2019 年至今
引用	1202	1198
h 指数	16	16
i10 指数	20	20

600

300

150

450

20212022202320245 96 582 509

开放获取的出版物数量

查看全部

7 篇文章

0 篇文章

可查看的文章

无法查看的文章

根据资助方的强制性开放获取政策

合著作者

Zhou ZhaoZhejiang University在 zju.edu.cn 的电子邮件经过验证
Yi Ren (任意)Research Scientist, Tiktok在 bytedance.com 的电子邮件经过验证
Jinglin Liu (刘静林)Research Scientist, ByteDance在 bytedance.com 的电子邮件经过验证
Zhenhui Ye (叶振辉)Zhejiang university在 zju.edu.cn 的电子邮件经过验证
Dongchao YangThe Chinese University of HongKong在 se.cuhk.edu.hk 的电子邮件经过验证
Dong Yu (俞栋)Distinguished Scientist @ Tencent AI Lab, ACM/IEEE/ISCA Fellow在 global.tencent.com 的电子邮件经过验证
Ziyue JiangZhejiang University在 zju.edu.cn 的电子邮件经过验证
Xize Cheng（成曦泽）Zhejiang University在 zju.edu.cn 的电子邮件经过验证
Jiatong Shi (史嘉彤)Carnegie Mellon University在 andrew.cmu.edu 的电子邮件经过验证
Xuankai ChangCarnegie Mellon University, Student在 andrew.cmu.edu 的电子邮件经过验证
Huadai LiuZhejiang University在 zju.edu.cn 的电子邮件经过验证
Songxiang LiuPhD. from CUHK在 mihoyo.com 的电子邮件经过验证
Shinji WatanabeCarnegie Mellon University在 cmu.edu 的电子邮件经过验证
Chunlei ZhangTencent AI Lab, Bellevue.在 global.tencent.com 的电子邮件经过验证
Max W. Y. LamIndependent Researcher

关注

Rongjie Huang

Facebook AI Research (FAIR), Zhejiang University

在 zju.edu.cn 的电子邮件经过验证 - 首页

Multimedia Computing Speech Natural Language Processing


标题按引用次数排序按年份排序按标题排序	引用次数引用次数	年份
Make-an-audio: Text-to-audio generation with prompt-enhanced diffusion models R Huang, J Huang, D Yang, Y Ren, L Liu, M Li, Z Ye, J Liu, X Yin, Z Zhao ICML 2023, 2023	147	2023
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis R Huang, MWY Lam, J Wang, D Su, D Yu, Y Ren, Z Zhao IJCAI 2022, 2022	130	2022
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech R Huang, Z Zhao, H Liu, J Liu, C Cui, Y Ren ACM MM 2022, 2022	121	2022
Bilateral denoising diffusion models MWY Lam, J Wang, R Huang, D Su, D Yu arXiv preprint arXiv:2108.11514, 2021	114*	2021
Audiogpt: Understanding and generating speech, music, sound, and talking head R Huang, M Li, D Yang, J Shi, X Chang, Z Ye, Y Wu, Z Hong, J Huang, ... Proceedings of the AAAI Conference on Artificial Intelligence 38 (21), 23802 …, 2024	102	2024
Multi-singer: Fast multi-singer singing voice vocoder with a large-scale corpus R Huang, F Chen, Y Ren, J Liu, C Cui, Z Zhao ACM MM 2021, 3945-3954, 2021	75	2021
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech R Huang, Y Ren, J Liu, C Cui, Z Zhao NeurIPS 2022, 2022	65	2022
SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation R Huang, C Cui, F Chen, Y Ren, J Liu, Z Zhao, B Huai, Z Wang ACM MM 2022, 2022	50	2022
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus L Zhang, R Li, S Wang, L Deng, J Liu, Y Ren, J He, R Huang, J Zhu, ... NeurIPS 2022, 2022	45	2022
Instructtts: Modelling expressive tts in discrete latent space with natural language style prompt D Yang, S Liu, R Huang, C Weng, H Meng IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024	44	2024
Hifi-codec: Group-residual vector quantization for high fidelity audio codec D Yang, S Liu, R Huang, J Tian, C Weng, Y Zou arXiv preprint arXiv:2305.02765, 2023	37	2023
Uniaudio: An audio foundation model toward universal audio generation D Yang, J Tian, X Tan, R Huang, S Liu, X Chang, J Shi, S Zhao, J Bian, ... arXiv preprint arXiv:2310.00704, 2023	34	2023
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation R Huang, Z Zhao, J Liu, H Liu, Y Ren, L Zhang, J He ICLR 2023, 2022	31	2022
Mega-tts: Zero-shot text-to-speech at scale with intrinsic inductive bias Z Jiang, Y Ren, Z Ye, J Liu, C Zhang, Q Yang, S Ji, R Huang, C Wang, ... arXiv preprint arXiv:2306.03509, 2023	27	2023
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model C Cui, Y Ren, J Liu, F Chen, R Huang, M Lei, Z Zhao Interspeech, 2021, 2021	25	2021
Make-a-voice: Unified voice synthesis with discrete representation R Huang, C Zhang, Y Wang, D Yang, L Liu, Z Ye, Z Jiang, C Weng, ... arXiv preprint arXiv:2305.19269, 2023	18	2023
Make-an-audio 2: Temporal-enhanced text-to-audio generation J Huang, Y Ren, R Huang, D Yang, Z Ye, C Zhang, J Liu, X Yin, Z Ma, ... arXiv preprint arXiv:2305.18474, 2023	16	2023
Geneface++: Generalized and stable real-time audio-driven 3d talking face generation Z Ye, J He, Z Jiang, R Huang, J Huang, J Liu, Y Ren, X Yin, Z Ma, Z Zhao arXiv preprint arXiv:2305.00787, 2023	14	2023
Mixspeech: Cross-modality self-learning with audio-visual stream mixup for visual speech translation and recognition X Cheng, T Jin, R Huang, L Li, W Lin, Z Wang, Y Wang, H Liu, A Yin, ... Proceedings of the IEEE/CVF International Conference on Computer Vision …, 2023	12	2023
Clapspeech: Learning prosody from text context with contrastive language-audio pre-training Z Ye, R Huang, Y Ren, Z Jiang, J Liu, J He, X Yin, Z Zhao arXiv preprint arXiv:2305.10763, 2023	10	2023

系统目前无法执行此操作，请稍后再试。

文章 1–20

每年引用数

重复的引用

合并的引用

添加合著者合著作者

上传 PDF

关注此作者

引用次数

合著作者

引用