自研小工具：微软神经网络语音合成助手

2020 年 6 月 20 起，本站采用阿里云智能语音合成技术，实现了博客文章自动生成音频，全年付费生成消耗不足 9 元。直到现在终于替换为微软神经网络语音合成技术，主要原因在于迄今为止它是做的最逼真、最自然的。万千音色、多种风格，以及其他语音合成所没有的呼吸声，在智能语音合成领域，敢称第二没人敢称第一。

0. 效果截图

1. 开发理由

虽然语音合成技术很早就有，唯一的缺点就是很少有面向普通人的可视化操作工具，一方面开发这种工具变现困难，另一方面这些可视化工具以往依赖于最底层的 C 类编程语言，不过都 2022 年了，许多跨端技术的出现，比如 fluent、webview2 等，使得以往全栈开发者都可以降维开发桌面跨端 app。这也是我开发这套工具的技术基础。本次开发借助 wails 工具，实现了 go 后端+vue 前端合并开发，最终体积只有 3.6Mb,里面包含 15 种音频预览。这种组合开发，既可以全前端 wasm 实现，也可以用 go 实现，自由度非常高。除此之外，微软亚洲研究院也详细介绍了fastspech模型和相关文献资料，对科研工作者的故事和背景做了详细报道，反观国内互联网企业，涉及技术性的东西从来只是强堆概念，微软亚洲研究院在这方面做的就很开放和自由，带给阅读者更多启发。

2. 为什么做 paper2gui？

当今世界，技术再牛，如果没有简单的可视化操作入口，只能尘封。价值来源于广泛的使用，挖掘那些论文里被尘封的潜在价值，就是半年前我创建 paper2gui 的初衷，让更人工智能产物更简单直接的面向普通大众。

3. 反内耗后的研究思路

在书写代码的风格里，类 yaml 格式最符合人脑，也最受欢迎，比如python、pug、stylus,在项目范畴上，通用仓库更容易获得青睐，比如 antfu 大佬写的unplugin系列远比unocss受欢迎，后者顶多只能做到类tailwindcss这样的分流主线，有着创始人意味，而unplugin系列包罗万象，这种兼容性极强的工具，就会成为类vue或vite，成为万千喜爱的大众项目。国内很多新手眼界很窄，从来不想想跨领域的事情，只觉得眼下就是一切，一叶障目很危险的。像我，不仅广泛浏览和思考全球优秀的 UI 设计，同时也全栈开发一些网页，还有降维操作的桌面 app,实时查看 GitHub 感兴趣的仓库代码变更，从源头理清开发者思路，虽然不能主动提出科研问题，却可以按月实现一个自己的小灵感。越是前沿、越是国际化的东西，实际上最终都是通用的，让你感受到的痛点和爽点，在程序领域总有类似的群体感觉，所以日常更新迭代就可以逐步趋向大同。假如你持久跟随在这些顶尖开发者的逻辑，渐渐的你就有了他们视角之外的想法，从而提出改进意见或者干脆自己提个 pull。在追逐 nuxt3 的更新里，我认识了国内 antfu 大佬，老外怒赞他一个人顶十个，精力无限灵感无限，更重要的是人家乐意为开源服务。在追逐 ncnn 项目时，我认识了 nihui 这样的大佬，虽然不像 antfu 那样高产，但确实把论文变成普通人使用的工具上有很突破，本次的微软神经网络语音合成，让我认识了Xu Tan谭旭这样的国内人工语音合成领域的高手。追逐这些顶尖高手的过程，很有趣，见识也大涨，不惧怕失败，也不惧怕错误，面对全新的想法付出实践时，如果没有 99%的失败，证明的你的工作毫无创意。这也是我连续数月不断挑战多个领域，每月一个新品的现实行动，高产出，高实践，高挫折，同样带给我无限的喜悦、兴奋和自豪。

4. 其他

软件下载地址： https://github.com/Baiyuetribe/paper2gui
阿里云盘：https://www.aliyundrive.com/s/2b4hyudGkni

自研小工具：微软神经网络语音合成助手

0. 效果截图

1. 开发理由

2. 为什么做 paper2gui？

3. 反内耗后的研究思路

4. 其他

分类专题

联系方式

近期项目

网站统计