收录 AI Coding 领域 100+ 核心名词,涵盖编程范式、工具产品、技术机制、工程实践、协议标准与评估体系,每个名词配有详细解释与横向对比。


全景思维导图

AI Coding 核心概念体系一览。


工具形态演进路径

从传统 IDE 补全到完全自主编程的六阶段演进。

+统计模型 +大语言模型 +多文件感知 +工具调用 +自主规划 传统 IDE手动补全语法高亮 AI 补全TabNine / Kite2019-2021 Copilot+ChatGitHub Copilot2021-2022 AI IDECursor / WindsurfTrae 2023-2024 Coding AgentCline / Claude Code2024-2025 Autonomous CodingDevin / SWE-agent2025+

Coding Agent 工作原理时序

一次完整 Coding Agent 任务的内部执行流程。


上下文管理架构

Coding Agent 如何构建、压缩和利用代码上下文。


三种开发范式对比

Vibe Coding、传统开发与 AI 增强开发的工作流对比。



一、编程范式

Vibe Coding

Vibe Coding 由 Andrej Karpathy(前特斯拉 AI 总监、OpenAI 联合创始人)于 2025 年 2 月提出。核心理念是:完全用自然语言驱动编程,忽略代码细节,凭感觉(vibe)和 AI 协作推进项目

 Karpathy 原话:"There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists." 

工作方式:

  • 用自然语言向 AI 描述想要的功能("做一个能上传图片并分析情绪的 web app")

  • AI 生成完整代码,开发者不读代码,直接运行看效果

  • 哪里不对就继续用语言告诉 AI 修改

  • 遇到报错也直接粘给 AI,让 AI 修("fix the error")

适用场景: 原型验证、个人项目、快速 demo、非专业程序员构建工具

局限性: 不适合生产级代码质量要求场景;代码可维护性差;需要AI较强能力支撑


AI Native Coding

AI Native Coding 是指从项目设计之初就将 AI 工具深度嵌入开发流程,而不是把 AI 当成外挂插件。

维度

传统开发

AI Augmented

AI Native Coding

AI 角色

补全助手

核心协作者

代码所有权

开发者 100%

开发者主导

人机共同

工作流设计

人工优先

人工+AI

AI 优先

上下文管理

不需要

部分

系统化设计

典型工具

VSCode

GitHub Copilot

Cursor / Trae / Claude Code

AI Native Coding 的核心实践包括:维护 Rules 文件、设计 Context 策略、Prompt Engineering for Code、让 AI 负责完整功能模块而非单行补全。


Prompt-Driven Development(PDD)

Prompt-Driven Development 是以"如何写好 prompt"为核心技能的开发范式。类比 TDD(测试驱动开发),PDD 先写清楚需求 prompt,再让 AI 生成代码,再验证。

核心原则:

  • 明确性:指定语言、框架、函数签名、边界条件

  • 示例驱动:给 AI 提供 input/output 示例

  • 约束声明:告知不允许用哪些库、要遵守哪些规范

  • 迭代细化:一次 prompt 不够完美,用对话迭代


Context Engineering

Context Engineering 是 AI Coding 时代的核心工程能力:设计和管理送给 LLM 的上下文,使其产出最高质量的代码

与 Prompt Engineering 的区别:

  • Prompt Engineering 关注单条指令的措辞

  • Context Engineering 关注整个上下文窗口的组织方式,包括代码库结构、文件引用顺序、Rules 文件、历史对话的裁剪策略

实践要点:

  1. Files to Include:哪些文件要放入上下文(当前文件 + 相关依赖 + 接口定义)

  2. Rules File:CLAUDE.md / .cursor-rules / .windsurfrules 等项目级规则文件

  3. Context Compression:超长对话时如何摘要历史,保留关键信息

  4. RAG for Code:用向量检索找最相关的代码片段,而不是全量塞入


Test-Driven AI Development(TDAD)

在 AI Coding 语境下,先让 AI 写测试用例(或人工写测试),再让 AI 根据测试生成实现代码,用测试作为"规格说明"约束 AI 输出质量。


二、工具形态

Code Completion(代码补全)

最基础的 AI Coding 能力:根据光标前的代码上下文,预测并补全下一段代码。

类型

说明

代表产品

单行补全

补全当前行剩余内容

早期 Copilot

多行/块补全

一次生成多行代码块

Copilot、Cursor

函数体补全

看函数签名生成完整实现

所有主流工具

文件级补全

跨文件感知补全

Cursor、Trae


Inline Suggestion(内联建议)

代码编辑器中以灰色幽灵文字显示的 AI 建议,按 Tab 接受,按 Esc 拒绝。是 Code Completion 的 UX 形态。最早由 GitHub Copilot 推广,现已成为所有 AI IDE 的标配。


FIM(Fill-In-the-Middle,中间填充)

FIM 是一种模型训练和推理范式:给定代码的前缀(prefix)和后缀(suffix),让模型预测中间缺失的部分。

Prefix: def calculate_area(radius):
    """计算圆的面积"""
    
Suffix: 
    return area

[FIM 预测中间内容]: area = math.pi * radius ** 2

FIM 使 AI 能感知光标后的代码,避免生成与后续代码冲突的内容,是现代 Code Completion 的核心技术之一。


Next Edit Prediction(NEP,下一处编辑预测)

比 Code Completion 更进一步:预测开发者下一个可能要编辑的位置,而不仅仅是当前光标处。

Cursor 的 Tab 功能支持 NEP:完成一处修改后,AI 会高亮预测下一处需要同步修改的代码,开发者再次按 Tab 即可接受。


Copilot(副驾驶模式)

Copilot 泛指"AI 作为编程副驾驶"的产品形态,具体化为 GitHub Copilot 产品,也代指这类工具的工作模式:AI 辅助、人类主导,AI 提供建议,人类决策。

GitHub Copilot 于 2021 年 6 月发布,是第一个基于大语言模型(OpenAI Codex,后升级为 GPT-4/Claude/Gemini)的商业化 AI Coding 产品,彻底改变了软件开发范式。


AI IDE(AI 集成开发环境)

将 AI 能力深度嵌入编辑器,而不是以插件形式附加的 IDE 产品形态。

产品

基础编辑器

核心差异化

Cursor

VSCode fork

Composer 多文件编辑、Tab NEP

Windsurf

VSCode fork

Cascade 流式对话、深度代码感知

Trae

VSCode fork

小米生态集成、国内模型支持

Zed

自研(Rust)

高性能、原生多人协作


Coding Agent(编程代理)

Coding Agent 是能够自主完成完整编程任务的 AI 系统,区别于 Copilot 的关键特征:

  1. 多步推理:将大任务拆解为多个子步骤

  2. 工具调用:可以读写文件、执行终端命令、搜索代码库

  3. 执行-观察循环:执行动作 → 观察结果 → 调整策略 → 继续执行

  4. 长时运行:一次任务可能需要几分钟到几小时

代表产品:Claude Code、Cline、Devin、SWE-agent、OpenHands


Autonomous Coding(自主编程)

比 Coding Agent 更进一步的形态:AI 能够完全自主地理解需求、规划方案、实现代码、测试验证、提交 PR,人类只需在关键节点审批。

Devin(Cognition AI,2024 年 3 月)是第一个号称实现 Autonomous Coding 的商业产品,在 SWE-bench 上达到 13.8% 的解决率。


AI CLI Tool(AI 命令行工具)

在终端(命令行)中直接使用的 AI Coding 工具,适合服务器开发、脚本编写等场景。

工具

特点

Claude Code

Anthropic 官方,Agent 能力强,支持 MCP

Aider

开源,Git 深度集成,支持多模型

GitHub Copilot CLI

解释和生成 shell 命令

Codeium CLI

轻量级,多语言支持


三、主流产品详解与对比

GitHub Copilot

发布: 2021 年 6 月(预览)/ 2022 年 6 月(正式)
母公司: Microsoft / GitHub(基于 OpenAI 模型)

第一个商业化 AI Coding 工具,开创了 AI Coding 市场。基于 OpenAI Codex(后升级为 GPT-4o、Claude Sonnet 等多模型可选)。

核心功能: Inline Suggestion、Copilot Chat、Copilot Workspace(Agent 模式)、PR Summary、Code Review


Cursor

发布: 2023 年(Anysphere 公司)
定位: AI-first IDE,VSCode fork

Cursor 是 AI IDE 的代表性产品,核心创新点:

  • Composer:多文件编辑对话界面,可以同时修改多个文件

  • Tab NEP:预测并高亮下一处编辑位置

  • Codebase Indexing:对整个代码库建立向量索引,支持 @codebase 语义搜索

  • Rules for AI:项目级 AI 行为规则文件(.cursor-rules)

  • 支持多模型:GPT-4、Claude、Gemini 等可切换


Windsurf

发布: 2024 年 11 月(Codeium 公司)
定位: AI-first IDE,VSCode fork

Codeium 由 Codeium 公司发布,定位与 Cursor 直接竞争。核心特性:

  • Cascade:流式 Agent 对话,实时展示 AI 的思考和操作过程

  • Flows:将人机协作步骤可视化为工作流

  • Deep Context Awareness:深度感知代码库结构和语义


Trae

发布: 2025 年(字节跳动)
定位: AI-first IDE,面向国内开发者

字节跳动旗下的 AI IDE 产品,基于 VSCode fork,集成字节旗下 Doubao 等模型。支持 MCP、Builder(Agent 模式)等特性,为国内开发者提供本土化 AI Coding 体验。


Claude Code

发布: 2025 年(Anthropic)
定位: AI Coding Agent CLI 工具

Anthropic 官方的 Coding Agent,运行在终端中,特点:

  • 深度 Agent 能力:支持复杂多步编程任务

  • MCP 集成:支持 Model Context Protocol,可连接外部工具和数据

  • CLAUDE.md:项目级规则文件,控制 AI 行为

  • Tool Use:文件读写、终端执行、代码搜索等工具调用


Aider

发布: 2023 年(开源,Paul Gauthier)
定位: 终端 AI Coding 工具,开源

开源 AI Coding CLI 工具,特点:

  • Git 深度集成:自动 commit,每次修改可溯源

  • 多模型支持:GPT-4、Claude、Gemini、本地模型(Ollama)

  • SEARCH/REPLACE 格式:使用结构化 diff 格式修改代码,减少幻觉

  • Architect Mode:先规划再实现的两阶段工作流


Cline

发布: 2024 年(开源)
定位: VSCode 插件形式的 Coding Agent

开源 Coding Agent,以 VSCode 插件运行。特点:

  • 完整 Agent 循环:读文件、写文件、执行命令、浏览器操作

  • 人工确认机制:每次关键操作需要人工批准(可配置)

  • MCP 支持:支持 Model Context Protocol 扩展工具

  • 多模型:支持 Claude、GPT-4、DeepSeek 等


Devin

发布: 2024 年 3 月(Cognition AI)
定位: 全自主 AI 软件工程师

第一个号称能独立完成软件工程任务的 AI Agent,拥有独立的工作环境(浏览器、终端、编辑器)。在 SWE-bench 上首次突破 13% 解决率,引发行业震动。


Replit Agent

发布: 2024 年(Replit)
定位: 云端 AI Coding,从 idea 到部署

在线 IDE Replit 的 AI Agent 功能,特点是全程在云端运行,用自然语言描述需求即可生成并部署应用,适合无编程基础的创建者。


Bolt

发布: 2024 年(StackBlitz)
定位: 浏览器内全栈应用生成

基于 WebContainers 技术,在浏览器内运行完整的 Node.js 环境,用自然语言生成全栈 Web 应用,实时预览,支持一键部署到 Netlify 等平台。


v0

发布: 2023 年(Vercel)
定位: UI 组件生成工具

Vercel 出品的 AI UI 生成工具,专注于生成 React + Tailwind CSS + shadcn/ui 的前端组件,支持在线编辑、实时预览、一键导出到 Next.js 项目。


主流产品横向对比

产品

类型

运行环境

核心优势

适用场景

GitHub Copilot

Copilot/Agent

IDE 插件

生态最广、稳定

日常开发

Cursor

AI IDE

本地

多文件编辑、NEP

专业开发者

Windsurf

AI IDE

本地

Cascade 流式

专业开发者

Trae

AI IDE

本地

国内模型、中文

国内开发者

Claude Code

Agent CLI

终端

强推理、MCP

复杂任务

Aider

Agent CLI

终端

开源、Git集成

开源爱好者

Cline

Agent

VSCode 插件

开源、可控

开源爱好者

Devin

Autonomous

云端

全自主

企业自动化

Bolt

No-code

浏览器

全栈快速

快速原型

v0

UI 生成

浏览器

UI 组件

前端原型


四、技术机制

RAG(Retrieval-Augmented Generation,检索增强生成)

在 AI Coding 语境中,RAG 指通过向量检索从代码库中找出最相关的代码片段,注入到 LLM 的上下文窗口中,而不是把整个代码库全部塞进去。

流程:

  1. 对代码库所有文件建立向量索引(Embedding)

  2. 用户提问时,将问题也向量化

  3. 用余弦相似度找最相关的 N 个代码片段

  4. 将这些片段注入 context,LLM 据此生成回答

优势: 解决 Context Window 有限的问题,让 AI 能处理大型代码库


Codebase Indexing(代码库索引)

AI IDE 对整个项目代码库进行扫描和索引的过程,支撑 RAG 检索和语义搜索。

索引内容通常包括:文件路径、函数名、类名、注释、代码语义、依赖关系。


AST(Abstract Syntax Tree,抽象语法树)

将源代码解析为树状结构,每个节点代表代码的语法结构(函数、类、语句、表达式)。AI Coding 工具利用 AST 精确理解代码结构,支持:

  • 精准的代码修改(不依赖字符串匹配)

  • 符号查找(找所有引用、定义跳转)

  • 代码重构


Tree-sitter

一个高性能、增量式解析器生成库,支持 100+ 编程语言。被 Neovim、GitHub、Helix 等广泛使用。AI IDE 普遍使用 Tree-sitter 解析代码 AST,为代码理解提供结构化基础。


LSP(Language Server Protocol,语言服务器协议)

微软提出的编辑器与语言服务通信协议,将语法高亮、跳转定义、自动补全等功能抽象为标准协议,任何编辑器都可以接入任何语言服务器。

AI IDE(Cursor、Windsurf、Trae)大量复用 LSP 提供的代码分析数据,作为 AI 上下文的补充。


Context Window(上下文窗口)

LLM 一次能处理的最大 token 数量。

模型

Context Window

GPT-3.5-turbo

16K tokens

GPT-4o

128K tokens

Claude 3.5 Sonnet

200K tokens

Claude 3.7 Sonnet

200K tokens

Gemini 1.5 Pro

1M tokens

Context Window 越大,AI 能同时感知的代码越多。但更大的 Context 并不总是更好——中间遗失(Lost in the Middle)问题:LLM 对上下文中间部分的注意力会下降。


Long Context(长上下文)

指模型能处理超长文本(通常 > 100K tokens)的能力。在 AI Coding 中,Long Context 使得 AI 能一次性读入整个大型代码库进行分析,而无需 RAG 截断。


Embeddings(向量嵌入)

将代码片段、函数、文档转换为高维向量的技术。语义相近的代码会有相近的向量表示,是 RAG 和代码语义搜索的基础。


Reranking(重排序)

RAG 检索出候选片段后,用一个更精准的模型对候选片段重新排序,确保最相关的片段排在最前面,提高注入 Context 的质量。


Tokenization(分词)

将代码文本切分为 token 的过程。代码的分词有特殊性:标识符、符号、关键字的分词方式会影响模型理解效率。代码专用模型通常有针对代码优化的 tokenizer(如 tiktoken for code)。


System Prompt(系统提示)

发给 LLM 的全局指令,在 AI Coding 工具中通常包含:工具调用格式、代码规范要求、输出格式约束、角色定义。用户不可见但对模型行为影响最大。


五、工程实践

Scaffolding(脚手架)

在 AI Coding 语境中,Scaffolding 指让 AI 生成项目初始结构——目录结构、配置文件、基础代码框架。用一句话描述项目类型,AI 输出完整可运行的初始项目。

Bolt、v0、Replit Agent 等工具的核心价值之一就是强大的 Scaffolding 能力。


Harness(测试框架 / 执行环境)

Harness 在 AI Coding 中有两层含义:

含义一:AI Test Harness(AI 测试执行框架)
一套用于测试和评估 AI Coding 能力的基础设施,包括:

  • 测试任务集(Task Set):标准化的编程任务

  • 执行环境:沙盒容器,AI 写代码后自动运行测试

  • 评估逻辑:判断 AI 生成代码是否通过所有测试用例

  • 结果收集:Pass@k、解决率等指标统计

SWE-bench、HumanEval 等评测基准都内置了 Harness。

含义二:Harness(软件公司)
Harness.io[1] 是一家 AI-Native DevOps 平台公司,提供 CI/CD、特性标志(Feature Flags)、云成本优化等产品,其产品线已深度集成 AI 能力,提供 AI 辅助的 pipeline 构建、代码变更分析等。

 在 AI Coding 讨论中,Harness 更多指"测试框架/执行环境"的通用概念,而非特指 Harness.io 公司产品。 

Helmers(人名:与 AI Coding 相关的关键人物)

Helmers 在 AI Coding 领域通常指 Aman Sanger 或相关 Cursor 核心团队成员,也可能是指多位研究者或工程师的姓氏。

更明确地,在 AI Coding 社区中经常被提及的关键人物包括:

人物

身份

贡献

Andrej Karpathy

前特斯拉 AI 总监、OpenAI 联创

提出 Vibe Coding 概念,karpathy/nanoGPT

Aman Sanger

Cursor 联合创始人

推动 AI IDE 普及

Scott Wu

Cognition AI CEO

创建 Devin

Paul Gauthier

Aider 作者

开源 AI Coding CLI 鼻祖

Simon Willison

LLM 研究者

LLM 工程实践传播者

 如果你的上下文中"Helmers"指的是特定工具或框架,请结合使用场景判断——它可能是某团队内部工具、某论文作者,或某个具体工程组件的名字。 

Diff Mode(差异对比模式)

AI Coding 工具修改代码时,以 diff 格式展示修改内容(红色删除行 / 绿色新增行),让开发者清楚看到 AI 做了哪些改变,再决定是否接受。

所有主流 AI IDE(Cursor、Windsurf、Trae)都有 Diff Mode,这是人机协作的关键 UX 设计——AI 提议,人类决策


SEARCH/REPLACE(搜索替换格式)

Aider 和 Claude Code 等 CLI 工具使用的代码修改格式:

<<<<<<< SEARCH
def old_function():
    return "old"
=======
def new_function():
    return "new"
>>>>>>> REPLACE

优势:

  • 精确定位:通过匹配代码片段(而非行号)定位修改位置

  • 减少幻觉:结构化格式让模型专注于修改内容

  • 可审查:修改意图清晰,便于人工 review


Rules File(规则文件)

放在项目根目录中,用于指导 AI 行为的配置文件。不同工具名称不同:

工具

规则文件名

Claude Code

CLAUDE.md

Cursor

.cursor-rules / .cursorrules

Windsurf

.windsurfrules

Cline

.clinerules

Aider

.aider.conf.yml

内容通常包括:项目技术栈说明、代码规范、禁止使用的库、输出格式要求、测试要求等。


Boilerplate(样板代码)

重复性的、固定结构的代码模板(如 React 组件框架、Express 路由模板、单元测试框架)。AI Coding 工具极大地减少了手写 Boilerplate 的时间,生成 Boilerplate 是最早被 AI 替代的编程任务之一。


Bug Fix Loop(错误修复循环)

AI Coding 中常见的迭代模式:

  1. AI 生成代码

  2. 运行报错

  3. 将错误信息粘给 AI

  4. AI 修复代码

  5. 再次运行,如仍有错误重复步骤 3-4

这个循环在 Vibe Coding 中尤为典型。


Code Review AI(AI 代码审查)

AI 自动分析 PR/代码变更,给出:

  • 代码质量评估

  • 潜在 Bug 识别

  • 安全漏洞提示

  • 性能问题分析

  • 代码规范检查

代表工具:GitHub Copilot Code Review、CodeRabbit、Qodana AI。


Test Generation(测试生成)

让 AI 根据源代码自动生成单元测试、集成测试。AI 能分析函数边界条件、异常路径,生成覆盖率更高的测试用例。是 TDAD(Test-Driven AI Development)的核心工具。


Refactoring(重构)

AI 辅助代码重构:提取函数、重命名变量、消除重复代码、优化算法复杂度。现代 AI IDE 可以理解重构意图并一次性修改多处相关代码。


Prompt Injection(提示注入攻击)

安全威胁:恶意代码库或文件中嵌入指令,欺骗 AI Agent 执行恶意操作(如删除文件、泄露密钥)。Coding Agent 在处理不受信任的代码库时面临此风险。


六、协议标准

MCP(Model Context Protocol,模型上下文协议)

MCP 是 Anthropic 于 2024 年 11 月发布的开放协议,定义了 AI 模型与外部工具/数据源之间的标准通信接口。

核心思想: 用统一协议替代各工具各自定制的集成方式,类似 USB 标准化了设备接口。

架构组成:

组件

角色

MCP Host

AI 应用(Claude Code、Cursor、Cline 等)

MCP Client

内置于 Host,负责与 Server 通信

MCP Server

提供特定能力的服务(文件系统、数据库、浏览器等)

MCP Server 能提供的能力类型:

  • Resources:上下文数据(文件、数据库记录、API 响应)

  • Tools:AI 可以调用的函数(执行命令、查询数据)

  • Prompts:预定义的提示模板

MCP 已被 Claude Code、Cursor、Windsurf、Cline、Trae 等主流工具支持,成为 Coding Agent 生态的重要基础设施。


Tool Use / Function Calling(工具调用 / 函数调用)

LLM 的核心能力扩展:让模型能够输出"调用外部函数"的指令,宿主程序执行后将结果返回给模型,模型继续推理。

这是 Coding Agent 实现文件操作、终端执行、Web 搜索等能力的基础机制。

用户: 帮我读取 src/main.py 文件
AI 内部: [Tool Call] read_file(path="src/main.py")
系统: [Tool Result] "def main():\n    print('hello')"
AI 输出: 文件内容如下:...

LSP(Language Server Protocol)

见"技术机制"章节。LSP 既是技术机制也是协议标准。


DAP(Debug Adapter Protocol,调试适配器协议)

微软提出的调试器通信协议,与 LSP 配套。部分 AI Coding Agent 通过 DAP 接入调试器,实现 AI 辅助的自动调试(设置断点、读取变量值、分析堆栈)。


OpenAPI / Swagger

API 定义规范。AI Coding 工具能直接读取 OpenAPI 规范文件,自动生成 API 调用代码、类型定义、测试用例。


七、评估体系

HumanEval

由 OpenAI 于 2021 年发布的代码生成评测基准,包含 164 个 Python 编程问题,每题有函数签名、文档字符串和测试用例。

指标: Pass@k(前 k 次生成中至少一次通过所有测试的比例)

模型

HumanEval Pass@1

GPT-4

~85%

Claude 3.5 Sonnet

~90%+

Qwen2.5-Coder-32B

~92%

DeepSeek-Coder-V2

~90%


SWE-bench

软件工程 Agent 评测基准,由 Princeton NLP 发布(2023 年)。

不同于 HumanEval 的算法题,SWE-bench 包含来自 GitHub 真实仓库的 Bug 修复任务:给定一个 issue 描述和代码库,AI 需要生成修复 patch。

SWE-bench Verified(子集):300 个人工验证的高质量任务
SWE-bench Lite:300 个"独立"任务,用于快速评估

Agent

SWE-bench Verified 解决率

Claude 3.5 Sonnet (2024-10)

~49%

o3

~71%

Devin (2024-03 首版)

~13.8%

SWE-bench 已成为衡量 Coding Agent 真实能力的黄金标准。


MBPP(Mostly Basic Python Problems)

Google 发布的 Python 编程基础题评测集,约 374 个有难度的问题,用于评估模型处理非算法类、更贴近实际开发场景的代码生成能力。


Pass@k

评估代码生成模型的核心指标:

  • Pass@1:一次生成就通过测试的概率(最严格,反映实际使用体验)

  • Pass@10:生成 10 次中至少一次通过的概率

  • Pass@100:生成 100 次中至少一次通过的概率

Pass@1 更接近真实使用体验,Pass@k(k>1)反映模型的"能力上限"。


CodeBLEU

基于 BLEU(机器翻译评估指标)改进的代码质量指标,同时考虑:token 匹配、语法 AST 相似度、数据流图相似度。比纯字符串匹配更能反映代码语义质量。


LiveCodeBench

持续更新的代码评测基准,使用 LeetCode、AtCoder、CodeForces 上的新题目(模型训练截止日期之后发布),避免"考试泄题"问题,更真实评估模型的实际编程能力。


BigCodeBench

覆盖 1140 个多样化编程任务的大型基准,任务来自真实开发场景(API 调用、数据处理、文件操作等),而不只是算法题,更接近日常软件开发。


EvoEval

通过对 HumanEval 题目进行语义变形生成的评测集,用于测试模型的泛化能力,而不是记忆训练数据中的解题模式。


八、代码专项模型

Code LLM(代码大语言模型)

专门针对代码数据训练或微调的大语言模型。相比通用 LLM,Code LLM 在代码理解、生成、补全、调试方面更准确,通常用大量开源代码(GitHub、HuggingFace、StackOverflow)训练。


Instruct Model vs Base Model

类型

说明

使用场景

Base Model

在原始代码数据上预训练,无指令跟随能力

研究、继续微调的起点

Instruct Model

在 Base Model 基础上经过 RLHF/SFT 对话微调

直接用于 AI Coding 工具


Qwen2.5-Coder(通义千问代码模型)

发布方: 阿里巴巴通义实验室
特点:

  • 支持 0.5B 到 72B 多种尺寸

  • 在 HumanEval、MBPP、LiveCodeBench 上达到顶尖性能

  • 支持 92 种编程语言

  • 强大的代码补全(FIM)和代码推理能力

  • Qwen2.5-Coder-32B 在多项评测上接近 GPT-4o


DeepSeek Coder / DeepSeek-Coder-V2

发布方: 深度求索(DeepSeek)
特点:

  • DeepSeek-Coder-V2(2024 年 6 月):236B MoE 架构,开源

  • 在 HumanEval、SWE-bench 等多项评测上达到 GPT-4 级别

  • 支持 338 种编程语言

  • 极具性价比:API 价格远低于 GPT-4


StarCoder2

发布方: BigCode 项目(Hugging Face + ServiceNow)
特点:

  • StarCoder2-15B 是最强的 15B 参数代码模型之一

  • 完全开源(BigCode OpenRAIL-M 许可证)

  • 训练数据:The Stack v2(来自 GitHub 的 619 种语言代码)


CodeLlama

发布方: Meta AI(2023 年 8 月)
特点:

  • 基于 Llama 2 专门针对代码微调

  • 提供 7B、13B、34B 三种尺寸

  • CodeLlama-Instruct 支持对话式代码编写

  • Infilling(FIM)能力:支持代码中间填充


Claude(代码能力)

Anthropic 的旗舰模型系列,在代码生成、理解、重构方面尤为突出:

  • Claude 3.5 Sonnet:SWE-bench Verified ~49%,是 Coding Agent 最常用的底座模型

  • Claude 3.7 Sonnet:引入扩展思考(Extended Thinking),代码推理能力进一步增强

  • 是 Cursor、Cline、Claude Code 等主流工具的默认/推荐模型


GPT-4o / o3

OpenAI 的多模态模型系列:

  • GPT-4o:多模态(文本+图像),代码能力强,HumanEval ~90%

  • o3:推理增强版,SWE-bench ~71%,代码 Agent 能力目前最强


Codex

OpenAI 于 2021 年发布的代码专用模型,是 GitHub Copilot 最初的底座模型。Codex 基于 GPT-3 在大量代码数据上微调,开创了 AI Coding 时代,已于 2023 年被更强的 GPT-4 系列取代(Codex API 已下线)。


Fine-tuning(微调)

在预训练模型基础上,用特定领域数据进行二次训练,使模型更好地适应特定任务或代码风格。

在 AI Coding 中,企业常对开源 Code LLM 进行 Fine-tuning:

  • 学习公司内部代码规范

  • 适应私有库和 API 使用方式

  • 提高特定业务领域代码生成质量


RLHF(Reinforcement Learning from Human Feedback)

人类反馈强化学习,让模型根据人类偏好优化输出质量。在 Code LLM 中,RLHF 使模型生成的代码不仅功能正确,还符合可读性、安全性等人类偏好。


九、名词速查表(100+ 词汇一览)

名词

中文

类别

一句话定义

Vibe Coding

氛围编程

编程范式

Karpathy 提出,用自然语言驱动、凭感觉与 AI 协作的编程方式

AI Native Coding

AI 原生编码

编程范式

从立项起就将 AI 深度嵌入开发全流程的范式

Prompt-Driven Dev

提示驱动开发

编程范式

以写好 prompt 为核心技能的开发范式

Context Engineering

上下文工程

编程范式

设计和管理送给 LLM 上下文的系统性工程能力

Test-Driven AI

AI 测试驱动

编程范式

先让 AI 写测试再生成实现的开发范式

Code Completion

代码补全

工具形态

根据光标前代码上下文预测并补全后续代码

Inline Suggestion

内联建议

工具形态

编辑器中灰色显示的 AI 建议,Tab 接受

FIM

中间填充

工具形态

给定前后缀让模型预测中间缺失代码的技术

Next Edit Prediction

下一处编辑预测

工具形态

预测开发者下一个可能需要修改的位置

Copilot

副驾驶

工具形态

AI 辅助、人类主导的编程协作模式

AI IDE

AI 集成开发环境

工具形态

AI 能力深度嵌入编辑器的 IDE 产品形态

Coding Agent

编程代理

工具形态

能自主完成完整编程任务、支持工具调用的 AI 系统

Autonomous Coding

自主编程

工具形态

AI 全自主规划、实现、测试、提交代码的形态

AI CLI Tool

AI 命令行工具

工具形态

在终端中使用的 AI Coding 工具

GitHub Copilot

-

主流产品

首个商业化 AI Coding 工具,Microsoft/GitHub 出品

Cursor

-

主流产品

AI-first IDE,Composer 多文件编辑,NEP 功能

Windsurf

-

主流产品

Codeium 出品 AI IDE,Cascade 流式对话

Trae

-

主流产品

字节跳动 AI IDE,面向国内开发者

Claude Code

-

主流产品

Anthropic 官方 AI Coding Agent CLI 工具

Aider

-

主流产品

开源 AI Coding CLI,Git 深度集成

Cline

-

主流产品

开源 VSCode 插件 Coding Agent,支持 MCP

Devin

-

主流产品

首个全自主 AI 软件工程师,Cognition AI 出品

Replit Agent

-

主流产品

云端 AI Coding,从需求到部署全流程

Bolt

-

主流产品

StackBlitz 出品,浏览器内全栈应用生成

v0

-

主流产品

Vercel 出品,React + Tailwind UI 组件生成

OpenHands

-

主流产品

前身 OpenDevin,开源 Coding Agent 框架

SWE-agent

-

主流产品

Princeton 出品,开源自主代码修复 Agent

RAG

检索增强生成

技术机制

向量检索最相关代码片段注入 LLM 上下文

Codebase Indexing

代码库索引

技术机制

AI IDE 对项目代码建立向量索引的过程

AST

抽象语法树

技术机制

源代码的树状结构表示,用于精确代码分析

Tree-sitter

-

技术机制

高性能增量代码解析库,支持 100+ 语言

Embeddings

向量嵌入

技术机制

将代码转为高维向量,支持语义搜索

Reranking

重排序

技术机制

RAG 检索后对候选片段按相关性重新排序

Context Window

上下文窗口

技术机制

LLM 一次能处理的最大 token 数量

Long Context

长上下文

技术机制

模型能处理超长文本(100K+ tokens)的能力

Tokenization

分词

技术机制

将代码文本切分为 token 的过程

System Prompt

系统提示

技术机制

发给 LLM 的全局指令,控制模型行为

Lost in the Middle

中间遗失

技术机制

LLM 对上下文中间部分注意力下降的问题

Scaffolding

脚手架

工程实践

让 AI 生成项目初始结构的能力

Harness

测试框架

工程实践

AI 评测中的测试执行基础设施;也指 DevOps 公司

Helmers

相关人物

工程实践

AI Coding 领域关键人物(如 Karpathy 等)的泛称

Diff Mode

差异对比模式

工程实践

以红绿差异展示 AI 修改内容,供人工审查

SEARCH/REPLACE

搜索替换格式

工程实践

Aider/Claude Code 的结构化代码修改格式

Rules File

规则文件

工程实践

项目级 AI 行为约束文件(CLAUDE.md 等)

Boilerplate

样板代码

工程实践

重复性固定结构的代码模板

Bug Fix Loop

错误修复循环

工程实践

AI 生成→报错→粘给AI修→再次运行的迭代模式

Code Review AI

AI 代码审查

工程实践

AI 自动分析 PR,识别 Bug 和安全漏洞

Test Generation

测试生成

工程实践

AI 根据源代码自动生成测试用例

Refactoring

重构

工程实践

AI 辅助的代码结构优化,保持功能不变

Prompt Injection

提示注入

工程实践

恶意代码嵌入指令欺骗 AI Agent 的安全威胁

Sandboxing

沙箱

工程实践

隔离 AI Agent 执行环境,防止意外破坏

PR Summary

PR 摘要

工程实践

AI 自动生成 Pull Request 的描述和变更摘要

MCP

模型上下文协议

协议标准

Anthropic 发布的 AI 工具接入标准协议

Tool Use

工具调用

协议标准

LLM 输出外部函数调用指令的能力

Function Calling

函数调用

协议标准

OpenAI 定义的结构化工具调用接口规范

LSP

语言服务器协议

协议标准

编辑器与语言服务通信的标准协议

DAP

调试适配器协议

协议标准

编辑器与调试器通信的标准协议

OpenAPI

-

协议标准

REST API 定义规范,AI 可读取自动生成调用代码

HumanEval

-

评估体系

OpenAI 发布的 164 题 Python 代码生成基准

SWE-bench

-

评估体系

GitHub 真实 Bug 修复任务的 Agent 评测基准

MBPP

-

评估体系

Google 发布的 Python 编程基础题评测集

Pass@k

-

评估体系

生成 k 次中至少一次通过测试的概率指标

CodeBLEU

-

评估体系

结合 token/AST/数据流的代码质量评估指标

LiveCodeBench

-

评估体系

使用最新竞赛题目持续更新的代码评测基准

BigCodeBench

-

评估体系

1140 个真实开发场景的大型代码评测基准

EvoEval

-

评估体系

HumanEval 语义变形版,测试模型泛化能力

Code LLM

代码大模型

代码模型

专门针对代码数据训练的大语言模型

Qwen2.5-Coder

千问代码

代码模型

阿里巴巴发布,0.5B~72B,支持 92 种语言

DeepSeek-Coder

深度求索代码

代码模型

深度求索发布,236B MoE,开源,高性价比

StarCoder2

-

代码模型

BigCode 项目出品,完全开源代码模型

CodeLlama

-

代码模型

Meta AI 发布,基于 Llama 2 的代码微调模型

Codex

-

代码模型

OpenAI 发布,GitHub Copilot 最初底座,已停服

Claude

-

代码模型

Anthropic 旗舰模型,SWE-bench 最强之一

GPT-4o

-

代码模型

OpenAI 多模态模型,代码能力强

o3

-

代码模型

OpenAI 推理增强模型,SWE-bench ~71%

Fine-tuning

微调

代码模型

在预训练模型上用特定数据二次训练

RLHF

人类反馈强化学习

代码模型

用人类偏好优化模型输出质量的训练方法

SFT

监督微调

代码模型

用标注对话数据微调,让模型学会指令跟随

Base Model

基础模型

代码模型

预训练阶段的原始模型,无指令跟随能力

Instruct Model

指令模型

代码模型

经 RLHF/SFT 微调后可对话的模型

MoE

混合专家架构

代码模型

大参数量模型的高效架构,每次只激活部分参数

The Stack

-

代码模型

BigCode 整理的开源代码训练数据集

Composer

-

产品特性

Cursor 的多文件编辑对话界面

Cascade

-

产品特性

Windsurf 的流式 Agent 对话功能

Builder

-

产品特性

Trae 的 Coding Agent 工作模式

Copilot Workspace

-

产品特性

GitHub Copilot 的任务级 Agent 功能

Agent Mode

Agent 模式

产品特性

AI IDE 中的多步自主执行工作模式

Chat Mode

对话模式

产品特性

AI IDE 中的问答对话功能

Edit Mode

编辑模式

产品特性

AI IDE 中单文件 AI 直接编辑的功能

CLAUDE.md

-

配置文件

Claude Code 的项目级 AI 行为规则文件

.cursor-rules

-

配置文件

Cursor 的项目级 AI 行为规则文件

.windsurfrules

-

配置文件

Windsurf 的项目级 AI 行为规则文件

WebContainers

-

技术

StackBlitz 的浏览器内 Node.js 运行时技术

Architect Mode

架构师模式

工具特性

Aider 的先规划再实现两阶段工作流

Flows

工具特性

Windsurf 中人机协作步骤的可视化工作流

@codebase

-

交互方式

Cursor 中引用整个代码库进行语义搜索的命令

Agentic AI

代理式 AI

概念

能自主规划、执行、反思、调整的 AI 系统

ReAct

推理-行动

概念

Reasoning + Acting,Agent 的思考-行动交替模式

Chain-of-Thought

思维链

概念

让模型逐步推理的提示技术,提高复杂任务准确性

Hallucination

幻觉

概念

LLM 生成不存在的函数、API 或错误代码的现象


 本文档收录 AI Coding 领域 100+ 核心名词,持续更新中。如有补充或纠错,欢迎评论。 

引用链接

[1]Harness.io: https://harness.io

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐