首页 > 粤语 > 粤语动态

Mozilla基金会开源语音数据集已拥有超两万小时内容,新增支持粤语

Mozilla基金会开源语音数据集已拥有超两万小时内容,新增支持粤语

admin   2022-05-03      0

本站非新闻机构,所有资讯皆分享转载自源稿单位

官方 网站建设:建设/开发/运营 在线咨询
广州13423640808,深圳18007555088

丰业水果全国合作收购 在线咨询
13922255007 填写收购意向

本周早些时候,Mozilla 宣布其 Common Voice 数据集现在包含超过20000小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。

IT之家了解到,最新的英语数据集有 71 GB,支持的语言也比以往任何时候都多,增加了蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。

根据 Mozilla 的说法,Common Voice 项目允许任何人为项目贡献自己的声音,从而让虚拟助手能够理解更多的口音。此外,Common Voice 项目是开源的,可确保大型科技公司无法独占,为小型开发商和公司提供了构建竞争产品和服务的机会。

Mozilla 在最新数据集版本中指出的亮点如下:

6种新语言:蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。

27种语言至少有100小时的语音数据,包括孟加拉语、泰语、巴斯克语和弗里斯兰语。

9种语言至少有500小时的语音数据,包括基尼亚卢旺达语(2383小时)、加泰罗尼亚语(2045小时)和斯瓦希里语(719小时)。

9种语言有至少45%的性别标签为女性,包括马拉地语、迪维希语和卢干达语。


百度搜寻:《Mozilla基金会开源语音数据集已拥有超两万小时内容,新增支持粤语
本文来源:IT之家 。如侵权,请把本文相对应的原创链接及文章作者证明发至邮箱admin@lanisky.cn,核实后本站即删除。



网友评论 更多评论()


发表评论 默认免登陆匿名发表
   

粤村镇点击此处一分钟即可智能化为您的村/镇 开通「某某村之窗」!其他类型注册:粤人 | 粤机构 | 公司

相关内容



  • lanisky® 推荐服务
  • 翘楚商务:华夏多翘楚,天涯若比邻!欢迎免费入住,免费建立官网,免费进行商务推广,与数以万计的企业做邻居!马上入住>>
  • 品牌展板:5分钟免费“上市”,打造专业完美的品牌展板,欢迎企业、网站、社团、院校、村镇、商店等!马上入住>>


蓝粤网微信公众号
蓝粤网交流QQ群 57632554