网站首页 > 精选文章正文

本地部署+低成本!这款开源AI音视频转文档工具火了

wudianyun 2025-09-12 04:19:45 精选文章 88 ℃

大家好，我是Jack Bytes，一个专注于将人工智能应用于日常生活的程序猿，平时主要分享AI、NAS、开源项目等。

兄弟们，不知道你们在生活、工作中有没有遇到过这样的场景：将视频或者音频转换为可以编辑的文字。

这样的场景一般来说只需要用音频识别就可以实现，但是单纯的音频识别经常会出现错字、错词等情况。

今天，给大家分享一个刚刚发现的利用 AI 将视频或音频转为文本的开源工具：AI-Media2Doc。目前在Github上已经斩获了2.3K Star。下面我们一起来看看吧！

一、介绍

AI-Media2Doc 又称「AI视频图文创作助手」，是一款基于 AI 大模型的 Web 工具，能够一键将视频和音频转化为各种风格的文档。

它采用前后端本地部署的方式，无需登录注册，让你以极低的成本体验 AI 视频 / 音频转风格文档服务。

该项目完全开源，基于 MIT 协议授权，你可以自由使用和二次开发。

二、功能特性

隐私保护到位：无需登录注册，所有任务记录都保存在本地，不用担心内容泄露。
前端高效处理：采用 ffmpeg wasm 技术，无需在本地安装 ffmpeg，降低了使用门槛。
多种风格支持：可将内容转化为小红书、公众号、知识笔记、思维导图、内容总结等多种风格。

AI 对话功能：支持针对视频内容进行 AI 二次问答，深入挖掘内容价值。
字幕导出便捷：处理结果可一键导出为字幕文件，满足多场景需求。

智能截图插入：基于字幕信息智能截图并插入文章，无需视觉大模型，实现图文并茂。

自定义 Prompt 灵活：支持在前端自定义配置 prompt，让输出更符合个人需求。

部署简单快捷：支持 Docker 一键部署，上手容易。

访问密码设置：后端设置访问密码后，前端用户需填写密码才能使用，增加安全性。

三、安装

首先需要安装Docker，这里不再赘述。

然后克隆代码库：

git clone https://github.com/hanshuaikang/AI-Media2Doc.git

在项目目录，执行下面的命令构建镜像：

make docker-image

然后配置一下variables.env文件，文件内容如下：

MODEL_ID=xxx
LLM_API_KEY=xxx
TOS_ACCESS_KEY=xxx
TOS_SECRET_KEY=xxx
TOS_ENDPOINT=xxx
TOS_REGION=xxx
TOS_BUCKET=xxx
AUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密码访问，请留空或者删除此行
WEB_ACCESS_PASSWORD=
# 默认使用字节火山方舟的大模型服务
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3

这个文件中的参数说明如下：

MODEL_ID：火山引擎对应的Model_ID
LLM_API_KEY：火山引擎的API_KEY
TOS_ACCESS_KEY：火山引擎对象存储服务的ACCESS_KEY
TOS_SECRET_KEY：火山引擎对象存储服务的SECRET_KEY
TOS_ENDPOINT：火山引擎对象存储服务的ENDPOINT
TOS_REGION：火山引擎对象存储的bucket区域
TOS_BUCKET：火山引擎对象存储的bucket名称
AUC_APP_ID：音频识别大模型的APP_ID
AUC_ACCESS_TOKEN：音频识别大模型的ACCESS_TOKEN
AUC_CLUSTER_ID：音频识别大模型的CLUSTER_ID
WEB_ACCESS_PASSWORD：网页应用访问密码
LLM_BASE_URL：大模型地址，默认使用火山方舟的大模型

然后执行下面的命令启动容器：

make run

出现下面的内容表示启动成功：

四、体验

在浏览器输入http://127.0.0.1:5173，即可进入到首页：

可以看到，这个工具可以直接视频或者MP3音频转换为知识笔记、小红书、公众号、内容总结、思维导图、字幕文件。

下面我们来试一下，上传一个音频文件，并要求它转为「思维导图」：

在点击「开始处理」之后，就吭哧吭哧的处理了:

下面是处理的结果：

可以看到生成思维导图的效果还是很好的。

下面再试试「内容总结」：

看看「小红书」图文生成的怎么样：

我们可以在页面左侧看到生成的历史记录：

同样可以设置不同文本类型的提示词：

也可以设置智能截图，自动为生成的内容添加相关图片，提升视觉效果。

还有更多其他的功能大家可以自行尝试！

五、总结

AI 视频图文创作助手凭借其开源免费、隐私保护、功能丰富、部署便捷等特点，为用户提供了低成本处理音视频内容的绝佳方案。

如果你也有视频音频转文字的需求，不妨试试这款工具，相信它会给你带来惊喜。

如果你也有好玩、好用的工具，欢迎在评论区留言！

我是Jack Bytes

一个专注于将人工智能应用于日常生活的半吊子程序猿！

平时主要分享AI、NAS、Docker、搞机技巧、开源项目等技术，喜欢的话请关注吧！

上一篇： AI一键生成高清短视频，这个开源神器让内容创作起飞!
下一篇：基于VUE3开发的CAD地图可视化平台代码开源了

网站首页 > 精选文章 正文