企业项目管理、ORK、研发管理与敏捷开发工具平台

网站首页 > 精选文章 正文

本地部署+低成本!这款开源AI音视频转文档工具火了

wudianyun 2025-09-12 04:19:45 精选文章 7 ℃

大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。

兄弟们,不知道你们在生活、工作中有没有遇到过这样的场景:将视频或者音频转换为可以编辑的文字

这样的场景一般来说只需要用音频识别就可以实现,但是单纯的音频识别经常会出现错字、错词等情况。

今天,给大家分享一个刚刚发现的利用 AI 将视频或音频转为文本的开源工具:AI-Media2Doc。目前在Github上已经斩获了2.3K Star。下面我们一起来看看吧!

一、介绍

AI-Media2Doc 又称「AI视频图文创作助手」,是一款基于 AI 大模型的 Web 工具,能够一键将视频和音频转化为各种风格的文档。

它采用前后端本地部署的方式,无需登录注册,让你以极低的成本体验 AI 视频 / 音频转风格文档服务。

该项目完全开源,基于 MIT 协议授权,你可以自由使用和二次开发。

二、功能特性

  • 隐私保护到位:无需登录注册,所有任务记录都保存在本地,不用担心内容泄露。
  • 前端高效处理:采用 ffmpeg wasm 技术,无需在本地安装 ffmpeg,降低了使用门槛。
  • 多种风格支持:可将内容转化为小红书、公众号、知识笔记、思维导图、内容总结等多种风格。
  • AI 对话功能:支持针对视频内容进行 AI 二次问答,深入挖掘内容价值。
  • 字幕导出便捷:处理结果可一键导出为字幕文件,满足多场景需求。
  • 智能截图插入:基于字幕信息智能截图并插入文章,无需视觉大模型,实现图文并茂。
  • 自定义 Prompt 灵活:支持在前端自定义配置 prompt,让输出更符合个人需求。
  • 部署简单快捷:支持 Docker 一键部署,上手容易。
  • 访问密码设置:后端设置访问密码后,前端用户需填写密码才能使用,增加安全性。

三、安装

首先需要安装Docker,这里不再赘述。

然后克隆代码库:

git clone https://github.com/hanshuaikang/AI-Media2Doc.git

在项目目录,执行下面的命令构建镜像:

make docker-image

然后配置一下variables.env文件,文件内容如下:

MODEL_ID=xxx
LLM_API_KEY=xxx
TOS_ACCESS_KEY=xxx
TOS_SECRET_KEY=xxx
TOS_ENDPOINT=xxx
TOS_REGION=xxx
TOS_BUCKET=xxx
AUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密码访问,请留空或者删除此行
WEB_ACCESS_PASSWORD=
# 默认使用字节火山方舟的大模型服务
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3

这个文件中的参数说明如下:

  • MODEL_ID:火山引擎对应的Model_ID
  • LLM_API_KEY:火山引擎的API_KEY
  • TOS_ACCESS_KEY:火山引擎对象存储服务的ACCESS_KEY
  • TOS_SECRET_KEY:火山引擎对象存储服务的SECRET_KEY
  • TOS_ENDPOINT:火山引擎对象存储服务的ENDPOINT
  • TOS_REGION:火山引擎对象存储的bucket区域
  • TOS_BUCKET:火山引擎对象存储的bucket名称
  • AUC_APP_ID:音频识别大模型的APP_ID
  • AUC_ACCESS_TOKEN:音频识别大模型的ACCESS_TOKEN
  • AUC_CLUSTER_ID:音频识别大模型的CLUSTER_ID
  • WEB_ACCESS_PASSWORD:网页应用访问密码
  • LLM_BASE_URL:大模型地址,默认使用火山方舟的大模型

然后执行下面的命令启动容器:

make run

出现下面的内容表示启动成功:

四、体验

在浏览器输入http://127.0.0.1:5173,即可进入到首页:

可以看到,这个工具可以直接视频或者MP3音频转换为知识笔记、小红书、公众号、内容总结、思维导图、字幕文件。

下面我们来试一下,上传一个音频文件,并要求它转为「思维导图」:

在点击「开始处理」之后,就吭哧吭哧的处理了:

下面是处理的结果:

可以看到生成思维导图的效果还是很好的。

下面再试试「内容总结」:

看看「小红书」图文生成的怎么样:

我们可以在页面左侧看到生成的历史记录:

同样可以设置不同文本类型的提示词:

也可以设置智能截图,自动为生成的内容添加相关图片,提升视觉效果。

还有更多其他的功能大家可以自行尝试!

五、总结

AI 视频图文创作助手凭借其开源免费、隐私保护、功能丰富、部署便捷等特点,为用户提供了低成本处理音视频内容的绝佳方案。

如果你也有视频音频转文字的需求,不妨试试这款工具,相信它会给你带来惊喜。

如果你也有好玩、好用的工具,欢迎在评论区留言!

我是Jack Bytes

一个专注于将人工智能应用于日常生活的半吊子程序猿!

平时主要分享AI、NAS、Docker、搞机技巧、开源项目等技术,喜欢的话请关注吧!

最近发表
标签列表