简介
SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测,具有多语种、混合语言、音色和情感控制能力,在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。
FunAudioLLM 通过结合先进的语音理解和生成技术,可以处理复杂的语音任务,并在多种语言环境中实现自然交。
SenseVoice可以应用于语音翻译、情感语音聊天、互动播客和富有表现力的有声读物朗读等。
SenseVoice具有音频理解能力,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)
SenseVoice性能:
多语言语音识别:经过超过40万小时的数据训练,支持50多种语言,识别性能超越Whisper模型。
丰富转录:
拥有优秀的情绪识别能力,在测试数据上达到并超越目前最好的情绪识别模型的效果。
提供声音事件检测能力,支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。
高效推理:SenseVoice-Small 模型采用非自回归端到端框架,从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms,比 Whisper-Large 快 15 倍。
便捷的Finetuning:提供便捷的Finetuning脚本和策略,让用户根据业务场景轻松解决长尾样本问题。
服务部署:提供服务部署管道,支持多并发请求,客户端语言包括Python、C++、HTML、Java、C#等。
在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上测试了多语言语音识别性能和推理效率,中文和粤语,SenseVoice-Small效果好。
github:https://github.com/FunAudioLLM/SenseVoice
相关资讯
AI的6000亿美元难题何解?创企高管热议大模型成本和商业化
新京报贝壳财经讯(记者白金蕾 陈维城)10月25日至26日,由RTE开发者社区和声网联合主办的RTE2024第十届实时互联网大会在京举行。会上一场由Lepton AI创始人兼首席执行官贾扬清,MiniMax合伙人魏伟,面壁智能联合
2025-01-28 20:43:12
如何让人工智能更好为人所用、向善发展?听世界顶尖科学家怎么说
2024世界顶尖科学家论坛于10月25日—27日在上海临港举行。本届论坛以“卓越科学 创新致成”为主题,举办青年科学大会等十多场专题会议,围绕材料、能源、生命科学、智能科学、物质科学等话题进行案例分享,推动科学
2025-01-28 20:23:09
诺贝尔奖是AI发展的里程碑时刻!DeepMind联创Hassabis获奖后最新专访
今年的诺奖将物理和化学两个领域的奖项都颁给了AI成果,这究竟代表着怎样的含义,又会产生怎样的影响?Demis Hassabis在本次专访中提出了自己的见解。10月,DeepMind联合创始人兼CEO Demis Hassabis凭借AlphaFold
2025-01-28 20:03:00
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的准确性和灵活性。在数据驱动的时代,时
2025-01-28 19:42:54
AI同声传译让你瞬间掌握60种语言的那一天,会发生什么事情?
随着AI技术的快速发展,语言不再是沟通的障碍。最新的AI同声传译技术的突破,让每个人都可以在不同语言环境下无缝交流,不必担心语言差异带来的不便。这种技术让每个普通人随时“携带”一个专属的同声传译员出门成为可
2025-01-28 19:22:45