因为市面上没有一个真正好用的语音助手,帮助我释放双手,并且现在主流的智能体助手,像豆包,Gemini 等,因为过于通用化而显得有时候很弱智和胡说八道,也出于对童年魔幻手机里的傻妞这样的人工智能的憧憬,所以自嗨了一个语音智能体
这个智能体能够记得我上次的对话,熟悉我的情绪,不会一味的附和我,甚至在我偷懒提问时直接“怼”我,引导我独立思考,会不会组成一个真正的伙伴
它能够扮演任何角色,导师,朋友,商业精英等等(计划中)
它还能根据对话推理你下达的任务与期望的目标
它能经过同意,操控电脑或手机,如清理垃圾,打开应用,使用应用(下单淘宝购物,剪辑视频)(计划中,成本爆炸)
现阶段已完成一部分,暂时没放服务器里
目前一个人/小团队全栈开发,有些技术方案可能是“能跑就行”,跪求大家多提意见(啥意见都行):
关于记忆的 TTL 和置信度算法:目前是基于规则的简单衰减,在大佬做长期记忆检索( RAG )时,有没有更轻量、更智能的本地管理或图数据库推荐?
IPC 通信的流畅性:Node.js 和 Python 之间传音频目前采用了“传本地文件路径 + TCP Socket 传 JSON”的方案,感觉还是有点,有没有更好的本地跨进程通信最佳实践?
在 MVP 阶段,大佬们觉得哪些功能是伪需求,应该断断续续聚焦核心吗
[问与答] 关于我做了一个自嗨的语音助手,愿景是小白也能通过自然语言轻松操控电脑或手机(跪求大佬指点)
Original Link:https://www.v2ex.com/t/1207835#reply3