SwiftScribe

SwiftScribe是百度硅谷实验室（SVAIL）研发的人工智能网页应用，可以把音频资料转录成文字。2017年3月，百度推出音频转文本应用，暂时免费。

软件名称: SwiftScribe
开发商: 百度

软件版本: 内测版
更新时间: 2017年3月

2014年，百度的首席科学家吴恩达带着一个10人的团队开发 Deep Speech——一套语音识别系统。当时的研究重点在怎么提高嘈杂环境下的英语语音识别准确率。百度收集了9600个人7000小时的语音样本，添加了15种噪声，把样本扩充到10万小时。吴恩达表示这套系统的错误率比同期的微软 Bing Speech、Google Speech API 等竞争对手低 10%。

2015年，百度硅谷实验室又发表论文公布了 Deep Speech 2 ，这个系统开始学习汉语，也提高了对不同英语口音识别的能力。

2016年，百度利用 Deep Speech 技术推出基于 Android 的语音输入应用 TalkType，强调输入法对“语音优先”。同一年，Deep Speech 2 还入选了《MIT 评论》评出的“2016年十大突破技术”，入选的理由是“语音识别技术让智能手机变得更易操作”。

主要功能

SwiftScribe的基本功能是把音频资料转录成文字，以解决消耗大量时间逐字听写转录的问题。SwiftScribe支持上传时长1个小时以内的wav或mp3文件，暂时只支持受英文，SwiftScribe在1分钟的录音需要不到30秒、1小时的录音需要20分钟左右。

接下来你会在网页上看到转录好的文字，但这并不意味着转录结束。文本不会区分大小写、没有标点符号，更没有分段，你需要在文本框中手动编辑，然后再做导出。这个过程也会被百度记录，就像所有的人工智能学习过程一样，它用来帮助算法纠正错误，提高准确率。

SwiftScribe在文本框底部有一排工具栏，播放按钮开启，一个高亮的标识会跟随语音标出阅读的进度，方便你停下来查看这个单词对应的语音。这个工具栏还有变速、标记的功能。

这个过程就相当于用机器算法取代了速记员、听写员的工作。SwiftScribe 会在广泛的领域内带来积极影响，提高生产力，包括医疗机构、法律、商业和媒体。专业领域的人工听写效率低，1小时的录音往往需要花费4-6 个小时，每分钟语音的成本在1美元，SwiftScribe 能把完成工作的时间平均缩短40%。

SwiftScribe 基于百度硅谷实验室的最新研究成果 Deep Speech 2，以后还会增加对视频文件的语音识别支持，也会添加自动插入标点符号等功能。

SwiftScribe目前还处在内测阶段，并未开放。

故事内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本故事还有待完善，请编辑

SwiftScribe

目录

主要功能

附件列表

标签

同义词