喜报！两篇论文被多媒体领域顶级国际会议（CCF A类会议）ACM Multimedia录用

YJY-LiShui 杭州电子科技大学丽水研究院

2024年09月23日 03:09

点击蓝字关注我们

喜

报

来

了

随着人工智能、大数据、云计算等技术的深度融合，多媒体领域迎来更为广阔的发展空间与机遇。近日，我院国家级人才李亮教授指导学生团队发表的两篇论文被多媒体领域顶级国际会议（CCF A类会议）ACM Multimedia录用，两项研究由杭州电子科技大学、中国科学院计算技术研究所和杭州电子科技大学丽水研究院合作完成。

据悉，论文《From Speaker to Dubber: Movie Dubbing with Prosody and Duration Consistency Learning》被会议选为Oral论文（Oral录用率3.97%）。该项研究聚焦于视觉声音克隆（Visual Voice Cloning，V2C），视觉声音克隆又称为电影配音任务（Movie Dubbing），旨在将台词转换为在时间和情感方面都与给定电影片段对齐的语音，同时保留住给定的单个参考音频的音色特征。配音中丰富的情绪和节奏变化以及需要和视频内容达成的对齐使其成为了一项极具挑战性的任务。该研究针对以上挑战设计了一个两阶段训练策略以及两个跨模态一致性模块，以使配音兼具高质量的发音和与视频内容的多层次对齐。

\ | /

★

论文《Domain Shared and Specific Prompt Learning for Incremental Monocular Depth Estimation》增量单目深度估计旨在让模型在新域中不断学习的同时保持其在旧域中的性能，当模型适应动态场景变化时，灾难性遗忘问题是关键挑战。该项研究将跨域灾难性遗忘归因于域分布和深度空间的连续变化。为此，提出了用于增量单目深度估计的域共享和域特定提示学习（DSSP）。该篇论文所阐述的方法在不同场景下实现了最先进的性能，如不同深度范围、虚拟和现实、不同天气条件，以及少样本增量学习设置。

ACM Multimedia作为多媒体领域的顶级国际会议，每年吸引全球众多顶尖学者和科研机构参与。此次我院参与的研究成果能够脱颖而出，获得大会的认可与录用，不仅是对我院人才团队科研能力的肯定，还促进了我院与高校、科研院所间的学术交流与合作，共同推动多媒体技术的全球化发展。

扫一扫｜关注更多动态

电话｜05782199959

邮箱｜HDU_LiShui@163.com

地址｜浙江省丽水经济技术开发区半导体芯片产业园3号楼

在看

喜报28

喜报 · 目录

上一篇喜报！我院引进产业化项目荣获HICOOL 2024全球创业大赛二等奖下一篇杭电丽水研究院与丽水山风文创公司签约共建杭电丽水山风文创研发基地

继续滑动看下一个