落叶楼阅读app最新版本
27.23MB · 2025-12-15
本文记录使用Trae SOLO模式开发一个视频提取文字并总结归纳的工具
线上地址:ashuai.site:24680/
笔者是前端开发,但是对产品经理的知识了解不多,所以想学习产品经理的知识,问之前的产品同事要了一份视频课程,无奈课程时长起步一个多小时,如果一点点开,或者快进看,也是效率略低。
因此,笔者想开发一个工具,能够一键提取视频中的内容文字,并把内容文字交给大模型,由大模型总结摘要
这样我就可以快速学习产品经理的知识,而不是浪费时间在看视频上
首先,我需要做技术框架选型,限定为react+vite+ts+antd+tailwindcss
笔者把上述需求,告知Trae 以后,Trae自动帮我生成一个文档,规划好,它需要做的事情,并且允许我调整这个规划文档,如下:
让其按照文档,进行开工,Trae SOLO会自动在命令行执行相关命令,然后在右侧生成对应代码
然后,安装各种依赖
当Trae SOLO完毕以后,会提供一个产物汇总,我们可以查看变更,这样能够具体看出来,Trae帮我们写了那些代码
然后,我们查看一下终端
默认运行在5173端口上
看看浏览器的效果,发现了一个小bug
这里可以截图,或者文字输入,把浏览器的bug粘贴,告知Trae,如下
然后,Trae会进行思考,并定位到问题代码,自动修复
这样的话,基本的样子就出来了,接下来,需要我进行人工介入
视频提取文字,分为这几个步骤
fluent-ffmpeg需要下载ffmepg这个工具的本地
whisper-node下载tiny微小版模型就行了
接下来,我需要 Windows 平台,下载ffmepg
参考这篇文章:blog.csdn.net/Natsuago/ar…
最终,笔者把ffmpeg安装好了,如下
fluent-ffmpeg和whisper-node需要后端服务,才方便运行,所以,我和Trae沟通后,它又帮我继续创建后端代码
比如删除文件操作,Trae会停下来solo,然后询问用户是否这样操作,这样还是不错的,防止AI编程误删一些重要的文件
和人沟通,有什么问题,和AI沟通也会有
有时候,锅不在AI,而在我们,因为我们没有清晰地表达明白需求
在来回的solo交流中,最终,实现了笔者想要的效果
注意,以下这总结文档,也是solo出来,我再修改的
地址:ashuai.site:24680/
服务器内存容量吃紧,就不部署后端了,大家可以自己拉取代码,自己本机跑起来
地址:github.com/shuirongshu…
原因主要有两点:
1.开源模型的识别准确率、2.服务器维护成本
整体用下来,还是能够提升很大的开发效率的