type
status
date
slug
summary
tags
category
icon
password
在加入AI音乐部门之后,组织结构发生了一些变化,我们部门变成了AI音乐&AI语音。由我来负责AI语音这个模块,所以想到了可以整理一个SOP,用于快速了解新业务的技术领域,帮助landing。
一、SOP:7步快速理解某一技术领域
Step 1:明确学习目标(1天)
不要想"我要学会AI音乐",而是问自己:作为产品经理,我需要知道什么?
- ✅ 能判断技术方案的可行性
- ✅ 能评估开发成本和时间
- ✅ 能跟技术团队深度对话
- ✅ 能识别技术创新机会
- ❌ 不需要:自己训练模型
- ❌ 不需要:写算法代码
- ❌ 不需要:发论文
为AI音乐设定具体目标:
✅ 理解:TTS、音乐生成的基本原理
✅ 知道:主流模型的优劣(Suno、Udio、Riffusion、MusicGen等)
✅ 能判断:用户需求的技术可行性
✅ 能评估:新功能的开发难度
✅ 能发现:技术能带来的产品创新
Step 2:建立知识地图(2-3天)
目标:画出这个领域的"技术全景图"。以AI音乐为例。
2.1 先搜集行业报告和综述
- Google Scholar搜:"AI Music Generation Survey"
- 找2-3篇综述论文(不用全看,看Abstract和图表)
- 找行业报告:Gartner、艾瑞、36氪的AI音乐报告
2.2 画出技术分类树
2.3 列出关键技术组件
- 模型:Transformer、Diffusion Model、VAE
- 数据:MIDI、Audio Waveform、Spectrogram
- 评估:音质、连贯性、风格一致性
Step 3:理解核心技术原理(3-5天)
不是深入研究,而是理解"它是怎么工作的"。
以Mureka的TTS为例:
3.1 What:TTS是什么?
- 输入:文本("Hello world")
- 输出:音频(声音)
- 中间:模型转换
3.2 Why:为什么需要这些技术?
- 为什么用神经网络?(传统拼接方法不自然)
- 为什么要语音克隆?(个性化需求)
- 为什么需要多语言?(全球化需求)
3.3 How:怎么实现的?
学习资源:
- YouTube搜:"How does TTS work"(找科普视频)
- 看竞品博客:ElevenLabs、Azure的技术博客
- 问ChatGPT:"用简单的语言解释TTS的原理"
Step 4:深入核心功能的实现(5-7天)
选2-3个你负责的核心功能,深度理解,以"Prompt to Voice"为例:
4.1 画技术架构图
4.2 问关键问题
去找技术同事或者自己研究,回答这些问题:
技术问题:
- 模型用的是什么架构?(Transformer?Diffusion?)
- 训练数据从哪来?(多少小时音频?)
- 推理需要多长时间?(30秒?3分钟?)
- 成本是多少?(每次生成的算力成本)
产品问题:
- 效果好坏的边界在哪?(什么样的Prompt效果好/差)
- 技术限制是什么?(不能做什么)
- 未来能优化的方向?(下一个版本能改进什么)
4.3 实际体验
- 自己试用功能,输入各种Prompt
- 对比竞品(ElevenLabs、MiniMax)
- 记录:什么情况下好,什么情况下差
Step 5:竞品技术对比(3-5天)
制作竞品技术对比表,对比不同竞品的核心技术、训练量级、生成速度、音质、功能、定价、优势和劣势。
信息来源:
- 官网技术博客
- YouTube demo视频
- Reddit/Twitter用户讨论
- 自己试用
- 技术论文(如果公开)
建立竞品追踪机制:
- 每月更新一次竞品表
- 订阅竞品的newsletter/blog
- 关注他们的Twitter
Step 6:建立技术术语库(持续)
创建一个AI音乐技术词典
学习方法:
- 每次技术评审或者算法会议,记下听不懂的词
- 回去查清楚,记到词典里,下次就能听懂了
Step 7:持续更新认知(每周2小时)
建立信息获取渠道,并且持续更新。
7.1 论文追踪(15分钟/周)
- 订阅:arXiv.org的AI音频分类
- 只看标题和Abstract
- 发现有意思的深入看
7.2 行业动态(30分钟/周)
- Twitter关注:
- AI音乐的研究者
- 竞品CEO/CTO
- 行业KOL
- Reddit订阅:r/MachineLearning、r/WeAreTheMusicMakers
- 产品hunt:看AI音乐新产品
7.3 技术博客(30分钟/周)
- Google AI Blog
- Meta AI Blog
- OpenAI Blog
- Stability AI Blog
7.4 内部学习(30分钟/周)
- 参加技术团队的分享会
- 跟算法工程师聊天
- 参加技术评审会议
7.5 实践验证(30分钟/周)
- 试用新功能
- 对比竞品
- 记录观察
二、具体到AI音乐:30天学习计划
Week 1:建立全局认知
Day 1-2:
- 读1篇AI音乐综述论文(只看Abstract、图表、结论)
- 画出AI音乐的技术分类树
- 列出Mureka用到的核心技术
Day 3-4:
- 试用5个竞品(Suno、Udio、MusicGen、Soundraw、Boomy)
- 记录:每个产品的核心功能、技术特点、优劣势
- 开始做竞品对比表
Day 5-7:
- 看3-5个YouTube视频:"How AI generates music"
- 用ChatGPT对话:
- "解释一下Diffusion Model在音乐生成中的应用"
- "TTS和音乐生成的技术有什么区别"
- "为什么AI生成的音乐有时不连贯"
Week 2:深入核心技术
Day 8-10:
- 深入理解TTS技术
- 看ElevenLabs的技术博客
- 看Azure TTS的文档
- 画出TTS的技术链路图
Day 11-14:
- 深入理解音乐生成
- 读MusicGen的论文(重点看Introduction和Method的图)
- 看Suno的demo视频分析
- 对比:TTS vs 音乐生成的技术差异
Week 3:理解Mureka的技术
Day 15-17:
- 跟技术Leader约1小时深度聊天
- 问他:我们的TTS用的什么模型?
- 问他:我们跟竞品的技术差异在哪?
- 问他:我们的技术优势和限制是什么?
Day 18-21:
- 参加2-3次技术评审会议
- 每次会后,整理听到的技术信息
- 把不懂的术语记到词典里,查清楚
Week 4:建立持续学习机制
Day 22-24:
- 完善你的竞品技术对比表
- 写一份总结:《Mureka vs 竞品的技术对比分析》
- 分享给团队,征求反馈
Day 25-28:
- 订阅相关newsletter和blog
- 关注Twitter账号
- 建立每周学习的习惯
Day 29-30:
- 复盘:我现在对AI音乐的理解到什么程度了?
- 测试:我能跟技术团队深度讨论了吗?
- 规划:下一步要深入哪个方向?
.png?table=collection&id=1286a25a-7060-8152-b53c-000b7a8e4124&t=1286a25a-7060-8152-b53c-000b7a8e4124&width=800&cache=v2)





