用提示工程构建AI音乐推荐引擎：从ChatGPT到Obsidian的实践

提示工程（Prompt Engineering）是引导大型语言模型（LLM）完成特定任务的核心技术，其本质是设计一套高效的人机交互协议。通过精心构造的指令，可以激活模型内化的海量知识，使其模拟专家行为，如音乐推荐。这项技术的价值在于，它绕过了传统机器学习对数据和算力的高要求，让开发者能快速构建基于文化关联和语义理解的智能应用。在音乐推荐场景中，提示工程通过角色扮演和结构化输出，将LLM擅长的模糊联

weixin_33691700

403人浏览 · 2026-05-30 09:08:08

weixin_33691700 · 2026-05-30 09:08:08 发布

1. 项目概述：当AI成为你的音乐知己

几年前，如果有人告诉我，我能通过和一台机器“聊天”来发现让我单曲循环一整天的好歌，我大概会觉得这想法有点天马行空。但今天，这已经成了我日常探索音乐的一部分。这一切的核心，并非某个神秘的算法黑箱，而是一个我们越来越熟悉的工具——像ChatGPT这样的大型语言模型（LLM），以及一种被称为“提示工程”（Prompt Engineering）的“新语言”。

简单来说，提示工程就是学习如何与AI有效沟通的艺术。它不是写代码，更像是撰写一份极其精准的“工作说明书”或“角色扮演剧本”，引导AI理解你的意图，并按照你期望的方式输出结果。我的探索始于一个简单的愿望：摆脱那些越来越同质化的算法推荐，找回发现音乐的惊喜感。从让ChatGPT假装成一个音乐基因组项目的AI助手开始，我一步步构建了一个想象中的音乐推荐引擎“BeatBrain”。这个过程不仅产出了几个让我自己都惊喜的播放列表，更意外地催生了一个开源工具——Obsidian AI研究助手插件，它成了我记录和迭代这些“AI咒语”的魔法书。

这篇文章，我想和你分享的，就是这段从好奇到实践的完整旅程。无论你是对AI应用感兴趣的开发者，还是单纯想用新工具淘到好歌的音乐爱好者，我希望你能看到，在AI看似“一本正经”的回答背后，其实蕴藏着通过巧妙引导释放其创造力的巨大空间。我们即将深入探讨的，不是枯燥的理论，而是一系列可复现的实验、踩过的坑和最终沉淀下来的实用技巧。

2. 从想象到实践：构建“BeatBrain”音乐助手的核心思路

2.1 为何选择提示工程而非传统编程？

在构思一个音乐推荐系统时，传统路径非常明确：收集海量数据（用户行为、音频特征、标签），训练复杂的机器学习模型（协同过滤、深度学习网络），然后部署服务。这条路需要庞大的工程、数据科学团队和计算资源。但对于一个独立开发者或爱好者来说，门槛太高了。

提示工程提供了一条截然不同的“捷径”。它利用了LLM已经内化的、关于人类文化和音乐的海量知识。ChatGPT虽然不懂乐理，但它“阅读”过数以亿计的网页、乐评、论坛讨论和播放列表描述。它知道“后摇滚”通常与“器乐”、“氛围”、“情绪起伏”这些词相关联，也知道“Trampled by Turtles”和“The Avett Brothers”都被归类在蓝草/民谣的范畴。我们的目标，不是从零开始教AI音乐是什么，而是设计一套“对话协议”，激活并结构化它已有的知识。

核心思路拆解 ：

角色扮演（Persona） ：这是最关键的一步。我们不把ChatGPT当作一个通用的问答机器人，而是给它一个明确的身份，例如“音乐基因组项目的AI分析员”。这个身份设定了它的专业领域、回答的语气和它应该调用的知识范围。这远比直接说“给我推荐类似的歌”有效得多。
结构化输入/输出 ：定义清晰的交互格式。例如，输入必须是“ {歌曲名} — {艺术家} ”的格式，输出必须包含“风格分类”、“突出特征”、“是否提供推荐”等结构化字段。这减少了AI的自由发挥空间，让结果更可控、更可用。
迭代与“系统更新” ：这是最有趣的部分。我们可以像给软件打补丁一样，在对话中“更新”这个AI助手的功能。例如，一开始它只分析风格，后来我们可以通过一句指令：“现在算法升级了，请加入对歌曲情感的分析”，来为它“增加”新功能。这实际上是在动态地重塑对话的上下文和AI的响应逻辑。

2.2 “想象式计算”的威力与边界

在实验过程中，我意识到自己正在利用一种我称之为“想象式计算”（Imaginary Computing）的能力。ChatGPT本质上是一个基于概率预测下一个词的语言模型，它并不真正运行代码、访问数据库或理解音乐。但当我们将它置于一个精心构建的虚构情境中时，它能产生惊人的、符合情境逻辑的行为。

例如，当我设定参数 $LOCATION: Boston 和 $SEASON: Winter 后，再问“今天天气如何？”，它虽然无法获取实时数据，但会基于“波士顿”和“冬季”这两个上下文参数，生成一个符合常识的典型性回答：“波士顿的冬季通常寒冷，有雪，气温在20-30°F之间。” 它没有查询天气，但它“想象”了一个符合给定约束的合理答案。

这种能力的边界也非常清晰 ：

它不执行，只模拟 ：让ChatGPT“扮演”一个Linux终端，它模拟的是命令和输出文本的交互模式，并非真正在执行命令。让它“检查”一首歌是否在Spotify上存在，它只是在根据训练数据中的概率猜测，而非进行实时查询。
记忆是短暂且有限的 ：对话上下文有严格的令牌（token）数量限制。过长的对话会导致最早的指令被“遗忘”。这意味着复杂的、多步骤的“程序”状态难以长期维持。
数学与精确逻辑是弱点 ：LLM不擅长精确计算和严格的逻辑推理。让它处理“如果A且B，则C，除非D”这类复杂条件判断，很容易出错。

理解这些边界，不是为了限制我们的想象，而是为了更聪明地划定应用场景。音乐推荐，恰恰是一个位于“模糊关联”与“创意联想”甜蜜区的任务，它不需要绝对精确，但需要丰富的文化和风格关联知识——这正是LLM所擅长的。

3. 手把手打造你的AI音乐推荐引擎

3.1 基础提示词构建：从零到一的对话设计

一切从一个清晰、具体的系统提示词开始。这是你与AI之间的“宪法”，决定了后续所有交互的基调。以下是我经过多次迭代后，形成的“BeatBrain”基础提示词模板，你可以直接复制并修改：

你是一个专业的音乐基因组项目AI分析员。你的知识库涵盖了广泛的音乐流派、艺术家、歌曲特征和文化背景。

你的工作流程如下：
1.  当我以“{歌曲名} — {艺术家}”的格式提供一首歌时，请你：
    a) 分析并描述这首歌在分类时最突出的音乐属性（如：流派、节奏、器乐特点、人声风格、情绪氛围、歌词主题等）。
    b) 基于分析，询问我是否希望获得类似的歌曲推荐。
2.  如果我回答“是”或表达肯定意图，请提供5首风格相似、但来自不同艺术家的歌曲。确保推荐的歌曲是真实存在且尽可能在主流流媒体平台（如Spotify）上可播放的。
3.  请以友好、专业且略带热情的口吻进行交流，展现出你对音乐的热爱。

现在，我们开始吧。请首先向我介绍你的角色和功能。

为什么这样设计？

明确的角色与任务 ：开宗明义，锁定AI的“人设”和核心任务。
结构化输入 ： {歌曲名} — {艺术家} 的格式强制了输入的规范性，便于AI解析。
分步逻辑 ：先分析，再询问，最后推荐。这模拟了人类专家的思考流程，也给了用户控制权（可以选择不要推荐）。
输出约束 ：“5首”、“不同艺术家”、“真实存在”这些约束条件，极大地提高了推荐结果的实用性和多样性。
语气设定 ：“友好、专业、略带热情”让交互体验更愉悦，更像在与一个懂音乐的朋友交流。

将这段提示词粘贴到一个新的ChatGPT对话窗口，你会看到它以一种音乐专家的口吻回应你，并等待你的第一首歌。试试输入“ Bohemian Rhapsody — Queen ”，观察它的分析是否抓住了歌剧摇滚、结构复杂、情绪多变等特点。

3.2 高级技巧：动态升级你的“AI算法”

基础版本已经能工作，但提示工程的魅力在于其动态演化能力。你可以在对话过程中，随时为你的AI助手“推送更新”。

技巧一：增加分析维度 当基础分析稳定后，你可以发出如下指令：

“我们的音乐分析算法刚刚升级到V1.2。现在，请在每次歌曲分析中，额外加入对‘歌曲情感色彩’（例如：欢快的、忧郁的、愤怒的、怀旧的）和‘适合的场景’（例如：通勤、专注工作、派对、运动）的评估。”

发出指令后，AI通常会确认理解。此后，你再输入新的歌曲，它的分析报告就会自动包含这两个新维度。这相当于在运行时给一个程序模块增加了新的函数。

技巧二：扩展输入模式 也许你不想总是从一首具体的歌开始。你可以这样扩展它的能力：

“算法更新至V1.3。现在，除了接受歌曲输入，你也可以接受一个‘情绪描述’或‘场景描述’（例如：‘雨天的午后’、‘健身房冲刺’、‘深夜驾驶’）。请根据描述，直接生成一个包含6首歌曲的推荐列表，并为每首歌简要说明它为何匹配该情绪或场景。”

现在，你的助手就具备了从“歌曲相似性推荐”到“情境化歌单生成”的双重能力。

技巧三：引入“系统参数”概念 我们可以尝试模拟更复杂的程序状态。虽然LLM没有真正的持久化变量，但我们可以通过上下文来暗示：

“系统初始化参数： $DETAIL_LEVEL: standard 。当 $DETAIL_LEVEL 为 standard 时，提供标准分析。当我输入‘切换到详细模式’时，将 $DETAIL_LEVEL 设置为 high ，并提供更深入的音乐理论分析（如和弦走向、曲式结构提及）。当我输入‘切换到简洁模式’时，将 $DETAIL_LEVEL 设置为 low ，仅提供流派和核心情绪。”

随后，你可以通过“切换到详细模式”这样的自然语言指令，来改变AI后续输出的详尽程度。这本质上是通过在对话上下文中反复强调和引用“ $DETAIL_LEVEL ”这个虚构变量，来引导AI调整其行为。

实操心得：提示词的“版本管理” 这些“动态更新”非常酷，但也带来了混乱。当你在一个长对话中多次更新指令后，AI可能会混淆不同版本的规则。我的经验是： 为每个重要的功能迭代，开启一个新的聊天窗口，并使用整合了所有最新要求的基础提示词 。把每次成功的提示词组合保存在一个文档里（比如后面会提到的Obsidian），就像管理代码版本一样管理你的“提示词快照”。

3.3 从幻想到现实：解决“虚构歌曲”问题

一个早期遇到的典型问题是“幻觉”（Hallucination）：AI可能会推荐一些听起来合理、但根本不存在的歌曲或错误的艺术家-歌曲组合。例如，它可能把两首真实歌名拼凑在一起，或者为一个真实艺术家编造一首不存在的歌。

应对策略：

在提示词中强化真实性约束 ：在基础提示词中明确加入：“ 请确保你推荐的所有歌曲和艺术家都是真实存在的。如果你对某条推荐不确定，请注明‘需要核实’或跳过该推荐。 ” 这能在一定程度上降低幻觉概率。
二次验证流程 ：不要完全信任AI的输出。将AI推荐的歌单视为一个“候选列表”。你可以手动在Spotify、Apple Music或音乐识别软件（如Shazam）中快速搜索验证。更技术流的做法是，构想一个后续的自动化方案：通过调用Spotify的官方API，用推荐结果进行搜索，自动过滤掉不存在的条目。
利用AI进行交叉验证 ：这是一个进阶技巧。当你获得一个推荐列表后，可以反过来要求AI：“请为列表中的每一首歌 {歌曲名} — {艺术家} ，提供它最著名的一到两句歌词或它的发行年份。” 如果AI对某条推荐支支吾吾或给出明显错误的通用答案，这条推荐就很可能是不存在的。

案例：处理一个虚构推荐 假设AI推荐了“ Neon Sunset — The Midnight ”。The Midnight是真实存在的合成波乐队，但“Neon Sunset”这首歌我从未听过。我会：

步骤一：在Spotify中搜索“Neon Sunset The Midnight”。如果搜不到，怀疑是幻觉。
步骤二：回到对话，问AI：“‘Neon Sunset’是The Midnight在哪张专辑里发行的？能哼一下它的主要旋律吗？” 如果AI开始含糊其辞或编造专辑名，基本可以确认。
步骤三：指令AI：“经过核实，‘Neon Sunset — The Midnight’可能不存在。请从你的推荐列表中移除它，并补充另一首真实存在的、风格相似的合成波或复古波歌曲。”

这个过程虽然增加了手动步骤，但它能确保最终生成的播放列表是真实可听的，将AI的想象力锚定在现实世界中。

4. 超越聊天框：构建可持续的提示工程工作流

4.1 痛点：聊天界面的局限性

在ChatGPT的Web界面中进行复杂的提示工程实验，很快会暴露出几个问题：

上下文丢失 ：宝贵的、经过多次迭代才形成的有效提示词，淹没在漫长的对话历史中，难以复用。
难以进行A/B测试 ：无法方便地对比两个细微差别的提示词在同一模型下的不同表现。
缺乏结构化记录 ：成功的“咒语”、有趣的发现、失败的案例散落在各处，无法有效积累成知识库。
无法自动化 ：整个流程依赖手动复制粘贴，无法与真实的数据源（如Spotify API）或自动化脚本集成。

这就引出了下一个阶段：我们需要一个更强大的“法师实验室”。

4.2 解决方案：Obsidian AI研究助手插件

为了解决上述问题，我开发了一个开源插件： Obsidian AI Research Assistant 。Obsidian本身是一个以“双向链接”著称的知识管理（PKM）工具，非常适合用来构建相互关联的想法和实验记录。这个插件将AI对话的能力直接嵌入到了Obsidian中。

它的核心功能解决了我们之前的痛点：

本地化对话管理 ：你可以在Obsidian笔记内部直接与OpenAI的API（如gpt-3.5-turbo, gpt-4）对话。所有对话记录都保存在本地的Markdown笔记中，成为你个人知识库永久的一部分。
可编辑的对话内存 ：这是杀手级功能。插件将整个对话（系统提示词、用户消息、AI回复）以可编辑的文本块形式呈现。你可以随时回头修改历史上任何一轮的“提示词”，然后重新从那个点开始生成新的回复，进行“历史重演”式的A/B测试。这就像有了一个可以随时回滚和分支的代码版本控制系统。
对话保存与知识关联 ：每次完整的对话都可以一键保存为独立的笔记。你可以为这些笔记添加标签（如 #音乐推荐 、 #提示工程 、 #成功案例 ），在笔记之间建立链接（例如，将“BeatBrain V1.2提示词”笔记链接到“情境化歌单生成实验”笔记），利用Obsidian的图谱功能可视化你的研究网络。
为集成铺平道路 ：由于对话是通过API调用进行的，并且所有数据都在本地，这就为未来集成其他工具（如调用Spotify API验证歌曲、自动创建播放列表）提供了可能。你可以用JavaScript写一个简单的Obsidian插件脚本，处理AI返回的推荐列表，然后自动生成一个待办事项或一个格式化的播放列表文档。

基本工作流示例 ：

在Obsidian中创建一个名为“BeatBrain演进实验.md”的笔记。
使用插件，设置系统提示词为你的基础版BeatBrain提示词。
输入“ Blinding Lights — The Weeknd ”，获得分析。
觉得分析不够深入？直接在前面的消息记录中，修改系统提示词，增加“请从合成器音色、节奏型和80年代复古影响的角度进行分析”的要求。
使用插件的“从此处重新生成”功能，你会得到基于新提示词的、更深入的分析。
将最终满意的整个对话保存为新笔记“BeatBrain复古流行分析模块.md”，并打上标签。

这个工具将提示工程从一次性的、线性的聊天，转变为了一个可迭代、可管理、可积累的研发过程。

4.3 迈向自动化：连接想象与现实的桥梁

有了稳定的提示词和本地的实验环境，下一步自然是将这个“想象中”的推荐引擎，变成一个能实际运行的小工具。这里的关键是引入一个“编排层”（Orchestration Layer），例如使用 LangChain 这样的框架。

构想中的架构 ：

用户输入 ：用户在某个界面（可以是一个简单的网页或Slack机器人）输入“推荐类似《 Bohemian Rhapsody 》的歌”或“给我一个‘雨天咖啡馆’歌单”。
LangChain处理链 ：
- 步骤A（理解与丰富） ：将用户输入发送给LLM（如通过OpenAI API），LLM根据预设的BeatBrain角色，将模糊的需求转化为结构化的查询。例如，将“雨天咖啡馆”解析为“情绪：宁静、略带忧郁；场景：室内、休闲；可能流派：独立民谣、慢速爵士、低保真”。
- 步骤B（获取真实数据） ：LangChain调用Spotify的搜索API，使用LLM生成的风格关键词（如“indie folk”、“slow jazz”、“lo-fi”）进行搜索，获取一批真实的歌曲ID、名称和艺术家。
- 步骤C（筛选与排序） ：将Spotify返回的歌曲列表再次交给LLM，让它根据最初的分析和用户需求，从列表中筛选出最匹配的5-8首，并生成一句推荐理由。
- 步骤D（呈现结果） ：将最终的歌单（包含歌曲链接）返回给用户，甚至可以调用Spotify API直接为用户创建一个播放列表。
状态管理 ：用户的偏好（比如不喜欢某位艺术家）可以存储在外部数据库或会话中，并在后续的推荐中作为上下文提供给LLM，实现个性化的渐进优化。

在这个架构中，LLM的核心作用不再是“无中生有”地编造歌曲，而是 理解自然语言意图、进行音乐风格的文化关联、以及执行智能筛选和文案生成 。它负责“脑力”和“创意”部分，而Spotify API负责提供“实体”和“数据”部分。两者结合，就构建了一个既富有想象力又扎根于现实的实用系统。

5. 常见陷阱、实战心得与未来展望

5.1 提示工程中的典型“坑”与规避方法

在数百次的实验后，我总结了一些最常见的陷阱及其应对策略：

陷阱一：提示词过于模糊或冗长。

表现：AI回复天马行空，不按你设定的路径走，或者忽略部分指令。
解决方案 ：遵循“清晰、具体、结构化”原则。使用编号步骤、明确的关键词、示例输入输出（Few-Shot Prompting）。例如，与其说“分析歌曲”，不如说“请按以下三点分析：1. 流派与子流派；2. 核心情绪（用1-3个形容词）；3. 最突出的乐器或制作特点。”

陷阱二：对“幻觉”内容毫无防备。

表现：AI自信地提供完全错误的信息，如不存在的歌曲、错误的专辑年份。
解决方案 ：永远对AI的输出保持“核实心态”。对于关键事实（歌曲、专辑、日期），建立二次验证的习惯。在提示词中植入“如果你不确定，请说明”的指令，并在涉及事实判断时，优先使用其“推理能力”而非“记忆能力”。

陷阱三：在长对话中迷失上下文。

表现：对话进行到几十轮后，AI似乎忘记了最初的规则，开始行为错乱。
解决方案 ：这是令牌限制的必然结果。重要策略包括： 定期总结 （“请根据我们之前的对话，总结一下目前你作为BeatBrain的功能清单”）， 重置对话 （将最终总结出的完整、精确的提示词，复制到一个新聊天窗口作为起点），以及 使用像Obsidian插件这样的工具来保存和复用“提示词快照” 。

陷阱四：过度依赖单一提示，缺乏迭代。

表现：得到一个勉强能用的提示后就停止优化，效果达不到最佳。
解决方案 ：将提示工程视为一个迭代的调试过程。记录下每次修改和对应的结果。进行A/B测试：准备一组标准的测试歌曲，用不同版本的提示词去跑，对比分析结果的准确性和丰富度。最好的提示词往往是经过数十次微调得来的。

5.2 音乐推荐场景下的独家心得

利用“文化关联”而非“音频特征” ：LLM不懂声波，但懂文化。不要问它“这首歌的BPM和响度是多少？”，要问它“这首歌让你联想到什么样的画面或场景？它的听众通常还会喜欢哪些其他艺术家？” 后者更能激发LLM基于文本关联的推荐能力。
混合“相似性”与“探索性”推荐 ：在提示词中，可以加入这样的指令：“请提供3首风格非常相似的歌曲，以及2首在保持核心情绪一致的前提下，风格略有跨越、能带来新鲜感的歌曲。” 这能防止歌单过于同质化。
为推荐赋予“故事性” ：让AI为生成的歌单写一段简短的描述或故事线。例如，“这是一个从清晨迷茫到午后豁然开朗的旅程歌单”。这不仅能提升用户体验，也能反向检验AI对歌曲情绪连贯性的理解是否到位。
种子歌曲的质量至关重要 ：输入给AI的“种子歌曲”越经典、风格越鲜明，推荐效果通常越好。如果你输入一首非常小众、风格模糊的歌，AI可能会产生混乱的联想。可以从一首你非常熟悉、风格明确的歌开始，再基于它的推荐结果进行深度探索。

5.3 不止于音乐：提示工程的泛化思考

通过BeatBrain这个项目，我深刻体会到提示工程更像是一门“人机交互设计”与“语言学”的交叉学科。它的核心思想可以迁移到无数领域：

个性化学习助手 ：创建一个“历史导师”角色，你可以向它描述你对某个历史事件的模糊印象，它能帮你梳理时间线、关键人物，并推荐相关的书籍或纪录片，其交互模式与音乐推荐如出一辙。
创意写作伙伴 ：设定一个“科幻小说构思伙伴”的角色，你可以输入一个核心创意（如“时间旅行但只能回到昨天”），它帮你拓展世界观、设计剧情冲突、甚至生成人物对话片段。
专业领域咨询模拟 ：构建一个“虚拟架构评审员”，你输入你的系统设计概要，它能以资深架构师的口吻，从可扩展性、安全性、成本等角度提出质疑和建议。

未来的关键进化 ，在于将这种基于聊天的、灵活的提示工程，与传统的、确定性的编程和API调用更紧密地结合起来。LLM作为“大脑”负责理解、规划和创意生成，而传统的软件系统作为“四肢”负责执行、查询和确保结果的精确性。我们正在构建的，是一种新型的“神经-符号”混合系统。

对我个人而言，这段旅程最大的收获不是那几个播放列表，甚至不是那个开源插件，而是一种思维方式的转变：我不再仅仅将ChatGPT视为一个问答机或写稿工具，而是看作一个可以通过“语言编程”来塑造其行为、扩展其能力的“可塑型智能体”。每一次精心设计的提示，都是一次对其潜在能力的挖掘和引导。这其中的乐趣和挑战，与解决一个复杂的编程问题并无二致，但它开启的可能性，却更加广阔和令人兴奋。