小白兔AI:面向非编程人员的AI人工智能工具箱

随着 AI 人工智能、机器学习技术的不断发展,各种 AI 算法的应用也越来越广泛!不过这些黑科技大多数需要编程基础,于是我们从头设计了一些列可视化 GUI 操作界面,自研了支持 Inter、Nvidia 和 Amd 显卡的 AI 聚合引擎,支持 OCR 识别、录音降噪、动漫超分辨、视频抠图、视频补帧等等,软件体积小巧、UI 现代化、操作极简又高效,值得推荐。

0. 创作背景

2021 年下半年个人开启了反内耗多输出模式,在 10 月国庆期间,突破了基于 Wails 编写 GUI 的技术,于是在全栈开发者背景下,自然是计划写出一些东西来,恰巧人工智能方向就是我非常感兴趣的方向。然而常规 Paper 论文都是基于 Pytorch 的 python 代码,打包成 GUI 一般软件体积巨大,速度也很慢,正好此时腾讯开源的 ncnn 非常契合我的需求,只需写一次代码就可以跨终端部署,意义非凡。当核心技术突破后,剩下的就特别简单了,于是我开源的 Paper2GUI 一口气量产了 18 个可视化界面,极大的方便了非编程人员使用。

2022 年 6 月份,随着本系列 APP 增多,粉丝提议搞一个聚合 APP,于是小白兔 AI 在 8 月正式诞生。为了做的更好、更专业,采取付费订阅模式,定价亲民,欢迎尝鲜。

1. 软件通用优势

  • 底层自研 AI 引擎,C++编写,性能优势明显
  • GPU 加速推理,Inter、Nvidia、Amd 全支持
  • 可视化界面,操作简单,一键推理
  • 聚合 AI,实用为主、生产力为主

2. 动漫超分辨功能

支持图片或视频超分辨放大,同时不丢失细节,画质改善明显。此类工具常被用来 B 站二次元超清 2K 或 4K 视频创作。

动漫图片超分辨领域,RealCugan-Pro 模型质量最佳,其次是 ReslESRGAN,这两者质量都比 waifu2x 好太多。小白兔 AI 已内置 RealCugan-Pro 和 ReslESRGAN 两种超分辨模型,支持图片或视频超分辨放大,全都一键处理。

3. 录音降噪功能

目前已支持录音文件或视频文件的声音降噪,AI 一键降噪,速度快,质量高。假如你的视频录音含有电流、机械、环境噪音等,可获得显著的降噪效果,无需千元级专业麦克风就能获得清晰优质的人声。

4. 视频补帧

视频插帧算法 Rife 和 Ifrnet,可以提升帧率,观感体验变得丝滑。特别适合运动类场景或镜头快速变化的场景,普通静态或运动幅度不大的场景,人眼感觉不到。软件支持自定义调整并发数,可根据显卡体质自行调整,从而最大程度适配不同的显卡。一般期望是 GPU 利用率满载,同时不爆显存即可。

5. OCR 图片批量识别

此类场景用途广泛,我们完成了 Paddler-OCR-v3 模型的本地化运行,操作简单,支持单张或多张图片批量处理。模型识别度高、准确率优秀,让你不再远程调用各种 API,延时低至约几 ms,支持中英文,甚至可识别繁体字。

该功能可拓展性强,未来还将上线字幕提取、图片文字替换等功能。

6. 视频抠图功能

图片抠图算法基本成熟,不再过多介绍,视频抠图一键生成绿幕视频,方便二次创作。此类技术可以非常方便的完成视频人像抠图,不再需要专业绿幕背景,只需要你的视频人物居中即可。

7. 语音合成功能

包含文字转语音工具,适用于自媒体视频配音、讲解、读书、广告等场景。语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,现在已发展有多种情绪、呼吸停顿等效果非常接近真人!小白兔 AI 已集成了来自微软、火山的语音合成引擎。

8. 人脸生成动漫照片

这是一个非常有意思的功能,可以将人物头像高质量的转换为动漫化风格的图片,该图片还可以进行二次超分辨放大,效果震撼,广受好评。

后续计划

继续拓展基础 AI 新功能,尝试突破动作捕捉、语音识别、字幕提取、deepfake、照片修复、智能涂抹、二次元生成、艺术创作 disco diffusion 等。虽然技术角度上我们会越来越丰富、越实用,但我们还需要更多的反馈,尤其是实际工作流上的一些具体问题。欢迎在软件内置的反馈渠道里告诉我们你的需求及想法,一起助力人工智能更加普及化、实用化。

下载地址

官网:xiaobaituai.com

开源:Paper2Gui

联系方式
广告
网站统计

累计发布:211 篇

总点赞量:1322

累计运行:5 年 186 天

建站日期:2018-10-25