ChatGPT官网API集成实战：从认证流程到性能优化的全链路解析

通过这次ChatGPT API的深度集成，我深刻体会到，一个稳定的AI服务集成需要考虑的远不止简单的API调用。从认证管理、错误处理到性能优化，每一个环节都需要精心设计。认证令牌一定要实现自动刷新机制，并处理好并发刷新的竞态条件流式响应处理要注意分块边界和编码问题速率限制不是敌人，而是朋友——合理的限流策略能提升系统稳定性日志中的敏感信息过滤是安全底线，不能忽视会话状态管理能显著提升用户体验，特别

数组1Arr

282人浏览 · 2026-03-24 06:13:42

数组1Arr · 2026-03-24 06:13:42 发布

ChatGPT官网API集成实战：从认证流程到性能优化的全链路解析

最近在项目中深度集成了ChatGPT官网的API，从最初的认证踩坑，到后来的性能调优，整个过程可以说是一波三折。今天就把这些实战经验整理出来，希望能帮到正在或即将进行类似集成的开发者们。

1. 核心痛点：集成路上的三座大山

刚开始集成时，我天真地以为就是简单的HTTP调用，结果发现远没有那么简单。主要遇到了三个让人头疼的问题：

认证时效性的坑 OAuth2.0的access_token默认只有1小时有效期，这意味着你的应用必须实现自动刷新机制。更麻烦的是，如果多个服务同时使用同一个token，刷新时很容易出现竞态条件，导致部分请求失败。

流式响应解析的复杂性 当处理长文本生成时，为了提升用户体验，我们通常使用流式响应。但这里有个陷阱：Chunked Encoding的数据不是一次性到达的，你需要正确处理分块边界，还要处理可能的中途断开重连。我刚开始就遇到了数据截断的问题，后来才发现是分块解析逻辑有缺陷。

配额动态调整的挑战 ChatGPT API有严格的速率限制和配额管理。在高峰期，如何优雅地处理429（Too Many Requests）错误，如何根据剩余配额动态调整请求频率，这些都是生产环境必须解决的问题。

2. 技术对比：REST API vs WebSocket

在长文本生成场景下，我对比了两种实现方式：

REST API + Streaming

延迟：首字节时间（TTFB）约200-500ms
QPS：受限于HTTP连接池，单实例约50-100 QPS
优点：实现简单，兼容性好
缺点：连接开销大，不适合超长对话

WebSocket长连接

延迟：建立连接后响应延迟降至50-150ms
QPS：单连接可维持持续对话，适合聊天场景
优点：连接复用，实时性更好
缺点：需要维护连接状态，错误恢复复杂

对于大多数应用场景，我推荐使用REST API + Streaming的方式，它在复杂度和性能之间取得了较好的平衡。只有在需要极低延迟的实时对话场景下，才考虑WebSocket方案。

3. 代码实现：双语言实战示例

Python异步客户端实现

下面是我在实际项目中使用的Python异步客户端，重点解决了token自动刷新和流式响应处理：

import aiohttp
import asyncio
import jwt
import time
from datetime import datetime, timedelta
from typing import AsyncGenerator, Optional

class ChatGPTAsyncClient:
    def __init__(self, api_key: str, base_url: str = "https://api.openai.com/v1"):
        self.api_key = api_key
        self.base_url = base_url
        self.session: Optional[aiohttp.ClientSession] = None
        self.token_expiry = datetime.now()
        self.refresh_lock = asyncio.Lock()
    
    async def ensure_session(self):
        """确保session存在且token有效"""
        if not self.session or self.session.closed:
            self.session = aiohttp.ClientSession(
                headers={"Authorization": f"Bearer {self.api_key}"},
                timeout=aiohttp.ClientTimeout(total=30)
            )
        
        # 检查token是否需要刷新
        if datetime.now() >= self.token_expiry:
            async with self.refresh_lock:
                if datetime.now() >= self.token_expiry:  # 双重检查
                    await self.refresh_token()
    
    async def refresh_token(self):
        """刷新访问令牌"""
        try:
            # 实际项目中这里应该是调用OAuth2.0的refresh接口
            # 这里简化处理，实际使用时需要替换为真实的刷新逻辑
            payload = {
                "exp": datetime.now() + timedelta(hours=1),
                "iat": datetime.now()
            }
            # 模拟token刷新，实际应调用认证服务器
            await asyncio.sleep(0.1)
            self.token_expiry = datetime.now() + timedelta(hours=1)
            print("Token refreshed successfully")
            
        except Exception as e:
            print(f"Token refresh failed: {e}")
            raise
    
    async def stream_completion(self, prompt: str, max_retries: int = 3) -> AsyncGenerator[str, None]:
        """流式生成文本"""
        for attempt in range(max_retries):
            try:
                await self.ensure_session()
                
                payload = {
                    "model": "gpt-3.5-turbo",
                    "messages": [{"role": "user", "content": prompt}],
                    "stream": True,
                    "temperature": 0.7
                }
                
                async with self.session.post(
                    f"{self.base_url}/chat/completions",
                    json=payload
                ) as response:
                    if response.status != 200:
                        error_text = await response.text()
                        raise Exception(f"API error: {response.status}, {error_text}")
                    
                    buffer = ""
                    async for chunk in response.content:
                        if chunk:
                            buffer += chunk.decode('utf-8')
                            lines = buffer.split('\n')
                            buffer = lines[-1]  # 保留未完成的行
                            
                            for line in lines[:-1]:
                                line = line.strip()
                                if line.startswith('data: '):
                                    data = line[6:]
                                    if data == '[DONE]':
                                        return
                                    try:
                                        import json
                                        json_data = json.loads(data)
                                        if 'choices' in json_data and len(json_data['choices']) > 0:
                                            delta = json_data['choices'][0].get('delta', {})
                                            if 'content' in delta:
                                                yield delta['content']
                                    except json.JSONDecodeError:
                                        continue
                
                return  # 成功完成
                
            except Exception as e:
                if attempt == max_retries - 1:
                    raise
                await asyncio.sleep(2 ** attempt)  # 指数退避
    
    async def close(self):
        """清理资源"""
        if self.session and not self.session.closed:
            await self.session.close()

# 单元测试示例
async def test_stream_completion():
    """测试流式生成功能"""
    client = ChatGPTAsyncClient(api_key="test_key")
    try:
        chunks = []
        async for chunk in client.stream_completion("Hello, how are you?"):
            chunks.append(chunk)
            print(f"Received chunk: {chunk}")
        
        # 断言：应该至少收到一个chunk
        assert len(chunks) > 0, "Should receive at least one chunk"
        print("Test passed!")
        
    finally:
        await client.close()

# 运行测试
if __name__ == "__main__":
    asyncio.run(test_stream_completion())

Node.js流式响应处理

对于Node.js项目，我推荐使用pipeline来处理流式响应，这样可以更好地管理内存和错误：

const { pipeline } = require('stream/promises');
const { Transform } = require('stream');
const axios = require('axios');

class ChatGPTStreamProcessor extends Transform {
    constructor(options = {}) {
        super({ ...options, objectMode: true });
        this.buffer = '';
    }
    
    _transform(chunk, encoding, callback) {
        this.buffer += chunk.toString();
        const lines = this.buffer.split('\n');
        this.buffer = lines.pop(); // 保留最后一行（可能不完整）
        
        for (const line of lines) {
            const trimmed = line.trim();
            if (trimmed.startsWith('data: ')) {
                const data = trimmed.substring(6);
                if (data === '[DONE]') {
                    this.push(null); // 结束流
                    return callback();
                }
                
                try {
                    const jsonData = JSON.parse(data);
                    if (jsonData.choices && jsonData.choices.length > 0) {
                        const content = jsonData.choices[0].delta?.content;
                        if (content) {
                            this.push(content);
                        }
                    }
                } catch (error) {
                    // 忽略JSON解析错误，继续处理下一个chunk
                    console.debug('Failed to parse chunk:', error.message);
                }
            }
        }
        callback();
    }
    
    _flush(callback) {
        // 处理缓冲区中剩余的数据
        if (this.buffer.trim()) {
            try {
                const jsonData = JSON.parse(this.buffer);
                const content = jsonData.choices?.[0]?.delta?.content;
                if (content) {
                    this.push(content);
                }
            } catch (error) {
                // 忽略解析错误
            }
        }
        callback();
    }
}

async function streamChatCompletion(apiKey, prompt, maxRetries = 3) {
    for (let attempt = 0; attempt < maxRetries; attempt++) {
        try {
            const response = await axios({
                method: 'post',
                url: 'https://api.openai.com/v1/chat/completions',
                headers: {
                    'Authorization': `Bearer ${apiKey}`,
                    'Content-Type': 'application/json'
                },
                data: {
                    model: 'gpt-3.5-turbo',
                    messages: [{ role: 'user', content: prompt }],
                    stream: true,
                    temperature: 0.7
                },
                responseType: 'stream',
                timeout: 30000
            });
            
            const processor = new ChatGPTStreamProcessor();
            let fullResponse = '';
            
            // 使用pipeline管理流
            await pipeline(
                response.data,
                processor,
                async function* (source) {
                    for await (const chunk of source) {
                        fullResponse += chunk;
                        yield chunk;
                    }
                }
            );
            
            return fullResponse;
            
        } catch (error) {
            if (attempt === maxRetries - 1) {
                throw error;
            }
            // 指数退避
            await new Promise(resolve => 
                setTimeout(resolve, Math.pow(2, attempt) * 1000)
            );
        }
    }
}

// 单元测试
async function testStreamProcessing() {
    try {
        const mockStream = require('stream');
        const testData = [
            'data: {"choices":[{"delta":{"content":"Hello"}}]}\n',
            'data: {"choices":[{"delta":{"content":" world"}}]}\n',
            'data: [DONE]\n'
        ];
        
        const readable = mockStream.Readable.from(testData);
        const processor = new ChatGPTStreamProcessor();
        
        const chunks = [];
        for await (const chunk of readable.pipe(processor)) {
            chunks.push(chunk);
        }
        
        console.assert(chunks.join('') === 'Hello world', 
            `Expected 'Hello world', got '${chunks.join('')}'`);
        console.log('Node.js stream test passed!');
        
    } catch (error) {
        console.error('Test failed:', error);
    }
}

// 运行测试
if (require.main === module) {
    testStreamProcessing();
}

4. 性能优化策略

请求批处理设计

当需要处理大量相似请求时，批处理可以显著提升性能。我设计了一个简单的Bulk API包装器：

import asyncio
from typing import List, Dict, Any
from dataclasses import dataclass
from concurrent.futures import Semaphore

@dataclass
class BatchRequest:
    prompt: str
    max_tokens: int = 100
    temperature: float = 0.7

class ChatGPTBatchProcessor:
    def __init__(self, client, max_concurrent: int = 10, batch_size: int = 5):
        self.client = client
        self.semaphore = Semaphore(max_concurrent)
        self.batch_size = batch_size
    
    async def process_batch(self, requests: List[BatchRequest]) -> List[str]:
        """批量处理请求"""
        results = []
        
        # 将请求分批次
        for i in range(0, len(requests), self.batch_size):
            batch = requests[i:i + self.batch_size]
            batch_results = await self._process_single_batch(batch)
            results.extend(batch_results)
        
        return results
    
    async def _process_single_batch(self, batch: List[BatchRequest]) -> List[str]:
        """处理单个批次"""
        tasks = []
        for request in batch:
            task = self._process_single_request(request)
            tasks.append(task)
        
        return await asyncio.gather(*tasks, return_exceptions=True)
    
    async def _process_single_request(self, request: BatchRequest) -> str:
        """处理单个请求（带并发控制）"""
        async with self.semaphore:
            try:
                full_response = ""
                async for chunk in self.client.stream_completion(
                    prompt=request.prompt,
                    max_tokens=request.max_tokens,
                    temperature=request.temperature
                ):
                    full_response += chunk
                return full_response
            except Exception as e:
                return f"Error: {str(e)}"

基于令牌桶的自适应限流

为了优雅地处理API限流，我实现了一个自适应令牌桶算法：

import time
from collections import deque
import threading

class AdaptiveRateLimiter:
    def __init__(self, initial_rps: int = 10, max_rps: int = 50):
        """
        自适应速率限制器
        :param initial_rps: 初始每秒请求数
        :param max_rps: 最大每秒请求数
        """
        self.rps = initial_rps
        self.max_rps = max_rps
        self.min_rps = 1
        self.request_times = deque()
        self.lock = threading.Lock()
        self.last_adjustment = time.time()
        self.adjustment_interval = 60  # 每60秒调整一次
        
    def wait_if_needed(self):
        """如果需要等待，则阻塞直到可以发送请求"""
        with self.lock:
            now = time.time()
            
            # 清理超过1秒的旧记录
            while self.request_times and now - self.request_times[0] > 1:
                self.request_times.popleft()
            
            # 如果达到限制，等待
            if len(self.request_times) >= self.rps:
                sleep_time = 1 - (now - self.request_times[0])
                if sleep_time > 0:
                    time.sleep(sleep_time)
                    now = time.time()
                    # 再次清理
                    while self.request_times and now - self.request_times[0] > 1:
                        self.request_times.popleft()
            
            # 记录本次请求
            self.request_times.append(now)
            
            # 自适应调整速率
            self._adjust_rate(now)
    
    def _adjust_rate(self, current_time: float):
        """根据实际情况调整速率"""
        if current_time - self.last_adjustment < self.adjustment_interval:
            return
        
        with self.lock:
            # 计算实际RPS
            actual_rps = len([t for t in self.request_times 
                            if current_time - t <= 1])
            
            # 根据错误率调整（这里简化处理，实际应该基于429错误率）
            if actual_rps >= self.rps * 0.9:  # 接近当前限制
                # 如果没有大量错误，可以尝试增加
                self.rps = min(self.rps * 1.1, self.max_rps)
            elif actual_rps < self.rps * 0.5:  # 远低于限制
                # 降低以避免浪费配额
                self.rps = max(self.rps * 0.9, self.min_rps)
            
            self.last_adjustment = current_time
    
    def record_error(self, error_type: str):
        """记录错误，用于调整速率"""
        with self.lock:
            if error_type == 'rate_limit':
                # 遇到限流错误，降低速率
                self.rps = max(self.rps * 0.8, self.min_rps)
            elif error_type == 'success':
                # 连续成功，可以尝试缓慢增加
                if time.time() - self.last_adjustment > 30:
                    self.rps = min(self.rps * 1.05, self.max_rps)

5. 避坑指南

敏感数据日志过滤

在记录日志时，必须过滤掉敏感信息。我使用正则表达式来识别和替换敏感数据：

import re
import json

class SensitiveDataFilter:
    def __init__(self):
        # 匹配API密钥（以sk-开头，后跟大小写字母和数字）
        self.api_key_pattern = re.compile(r'sk-[A-Za-z0-9]{48}')
        
        # 匹配JWT令牌
        self.jwt_pattern = re.compile(r'eyJ[A-Za-z0-9_-]+\.[A-Za-z0-9_-]+\.[A-Za-z0-9_-]+')
        
        # 匹配邮箱地址
        self.email_pattern = re.compile(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}')
        
        # 匹配手机号码（中国）
        self.phone_pattern = re.compile(r'1[3-9]\d{9}')
    
    def filter_log(self, log_message: str) -> str:
        """过滤日志中的敏感信息"""
        filtered = log_message
        
        # 替换API密钥
        filtered = self.api_key_pattern.sub('[API_KEY_REDACTED]', filtered)
        
        # 替换JWT令牌
        filtered = self.jwt_pattern.sub('[JWT_TOKEN_REDACTED]', filtered)
        
        # 替换邮箱
        filtered = self.email_pattern.sub('[EMAIL_REDACTED]', filtered)
        
        # 替换手机号
        filtered = self.phone_pattern.sub('[PHONE_REDACTED]', filtered)
        
        # 处理JSON中的敏感字段
        filtered = self._filter_json_sensitive(filtered)
        
        return filtered
    
    def _filter_json_sensitive(self, text: str) -> str:
        """过滤JSON字符串中的敏感字段"""
        try:
            # 尝试解析为JSON
            data = json.loads(text)
            filtered_data = self._filter_dict_sensitive(data)
            return json.dumps(filtered_data, ensure_ascii=False)
        except (json.JSONDecodeError, TypeError):
            # 如果不是JSON，返回原文本
            return text
    
    def _filter_dict_sensitive(self, data: dict) -> dict:
        """递归过滤字典中的敏感字段"""
        if not isinstance(data, dict):
            return data
        
        filtered = {}
        sensitive_keys = {'api_key', 'token', 'password', 'secret', 'key', 
                         'authorization', 'auth', 'credential'}
        
        for key, value in data.items():
            key_lower = key.lower()
            
            # 检查是否是敏感字段
            if any(sensitive in key_lower for sensitive in sensitive_keys):
                if isinstance(value, str) and value:
                    filtered[key] = '[REDACTED]'
                else:
                    filtered[key] = value
            elif isinstance(value, dict):
                filtered[key] = self._filter_dict_sensitive(value)
            elif isinstance(value, list):
                filtered[key] = [
                    self._filter_dict_sensitive(item) if isinstance(item, dict) else item
                    for item in value
                ]
            else:
                filtered[key] = value
        
        return filtered

# 使用示例
filter = SensitiveDataFilter()
log_data = {
    "request": {
        "api_key": "sk-abc123def456ghi789jkl012mno345pqr678stu901",
        "prompt": "Hello, my email is user@example.com",
        "user_info": {
            "phone": "13800138000",
            "token": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.xxxxx"
        }
    }
}

log_json = json.dumps(log_data)
filtered_log = filter.filter_log(log_json)
print(filtered_log)

会话状态丢失补偿机制

在长时间对话中，网络问题可能导致会话状态丢失。我设计了以下补偿机制：

import hashlib
import pickle
from datetime import datetime, timedelta
from typing import Optional, List, Dict, Any

class ConversationStateManager:
    def __init__(self, storage_backend=None):
        """
        会话状态管理器
        :param storage_backend: 存储后端，可以是redis、数据库等
        """
        self.storage = storage_backend or {}  # 默认使用内存存储
        self.max_history = 20  # 最大历史记录条数
    
    def create_session_id(self, user_id: str, context: str) -> str:
        """创建唯一的会话ID"""
        content = f"{user_id}:{context}:{datetime.now().timestamp()}"
        return hashlib.md5(content.encode()).hexdigest()[:16]
    
    def save_state(self, session_id: str, state: Dict[str, Any], 
                   ttl_seconds: int = 3600) -> bool:
        """保存会话状态"""
        try:
            state_data = {
                'state': state,
                'timestamp': datetime.now().timestamp(),
                'expires_at': (datetime.now() + timedelta(seconds=ttl_seconds)).timestamp()
            }
            
            # 序列化状态数据
            serialized = pickle.dumps(state_data)
            
            # 保存到存储后端
            self.storage[session_id] = serialized
            return True
            
        except Exception as e:
            print(f"Failed to save state: {e}")
            return False
    
    def load_state(self, session_id: str) -> Optional[Dict[str, Any]]:
        """加载会话状态"""
        try:
            if session_id not in self.storage:
                return None
            
            serialized = self.storage[session_id]
            state_data = pickle.loads(serialized)
            
            # 检查是否过期
            if datetime.now().timestamp() > state_data['expires_at']:
                del self.storage[session_id]
                return None
            
            return state_data['state']
            
        except Exception as e:
            print(f"Failed to load state: {e}")
            return None
    
    def update_conversation_history(self, session_id: str, 
                                   new_message: Dict[str, str]) -> List[Dict[str, str]]:
        """更新对话历史"""
        state = self.load_state(session_id) or {'history': []}
        
        history = state.get('history', [])
        history.append(new_message)
        
        # 保持历史记录不超过最大限制
        if len(history) > self.max_history:
            history = history[-self.max_history:]
        
        state['history'] = history
        self.save_state(session_id, state)
        
        return history
    
    def restore_conversation(self, session_id: str, 
                           new_prompt: str) -> Dict[str, Any]:
        """恢复对话（补偿机制）"""
        state = self.load_state(session_id)
        
        if not state:
            # 没有找到历史状态，开始新对话
            return {
                'messages': [{'role': 'user', 'content': new_prompt}],
                'is_restored': False
            }
        
        # 使用历史记录恢复上下文
        history = state.get('history', [])
        
        # 构建消息列表（确保不超过token限制）
        messages = []
        for msg in history[-10:]:  # 只取最近10条消息
            messages.append(msg)
        
        # 添加新消息
        messages.append({'role': 'user', 'content': new_prompt})
        
        return {
            'messages': messages,
            'is_restored': True,
            'history_length': len(history)
        }

6. API调用时序图

下面是ChatGPT API调用的完整时序图，展示了从认证到响应的完整流程：

sequenceDiagram
    participant Client as 客户端应用
    participant Auth as 认证服务器
    participant API as ChatGPT API
    participant Cache as 令牌缓存
    participant Retry as 重试机制
    
    Client->>Auth: 1. 请求Access Token
    Auth-->>Client: 返回Token (expires_in: 3600s)
    
    Client->>Cache: 2. 缓存Token
    Note over Client,Cache: 设置过期时间
    
    loop 每次API调用
        Client->>Cache: 3. 检查Token有效性
        alt Token已过期或即将过期
            Cache-->>Client: Token无效
            Client->>Auth: 4. 刷新Token
            Auth-->>Client: 返回新Token
            Client->>Cache: 更新缓存
        else Token有效
            Cache-->>Client: Token有效
        end
        
        Client->>API: 5. 发送API请求 (带Token)
        
        alt 请求成功
            API-->>Client: 6. 返回流式响应
            Client->>Client: 7. 分块处理响应数据
        else 请求失败 (429等)
            API-->>Client: 返回错误
            Client->>Retry: 8. 触发重试机制
            Retry->>Retry: 指数退避等待
            Retry->>Client: 重试建议
            Client->>API: 9. 重试请求
        end
    end
    
    Note over Client,API: 10. 完成所有数据处理

7. 扩展思考：GPT模型版本AB测试框架

在实际业务中，我们经常需要对比不同GPT模型版本的效果。我设计了一个简单的AB测试框架：

import random
from abc import ABC, abstractmethod
from typing import Dict, Any, List
from dataclasses import dataclass
from statistics import mean
import time

@dataclass
class TestResult:
    model_version: str
    response_time: float
    token_usage: int
    quality_score: float = 0.0
    error_count: int = 0

class ModelTester(ABC):
    """模型测试器基类"""
    
    @abstractmethod
    async def call_model(self, prompt: str) -> Dict[str, Any]:
        pass
    
    @abstractmethod
    def calculate_quality(self, response: str, prompt: str) -> float:
        pass

class GPTABTestFramework:
    def __init__(self, testers: Dict[str, ModelTester]):
        """
        AB测试框架
        :param testers: 模型名称到测试器的映射
        """
        self.testers = testers
        self.results: Dict[str, List[TestResult]] = {
            name: [] for name in testers.keys()
        }
    
    async def run_test(self, prompts: List[str], 
                      samples_per_model: int = 100) -> Dict[str, Any]:
        """运行AB测试"""
        all_results = {}
        
        for model_name, tester in self.testers.items():
            print(f"Testing model: {model_name}")
            model_results = []
            
            # 随机选择测试样本
            test_prompts = random.sample(prompts, min(samples_per_model, len(prompts)))
            
            for prompt in test_prompts:
                try:
                    start_time = time.time()
                    
                    # 调用模型
                    response_data = await tester.call_model(prompt)
                    
                    response_time = time.time() - start_time
                    
                    # 提取响应内容
                    response_text = self._extract_response(response_data)
                    
                    # 计算质量分数
                    quality_score = tester.calculate_quality(response_text, prompt)
                    
                    # 计算token使用量
                    token_usage = self._calculate_token_usage(response_data)
                    
                    result = TestResult(
                        model_version=model_name,
                        response_time=response_time,
                        token_usage=token_usage,
                        quality_score=quality_score
                    )
                    
                    model_results.append(result)
                    
                except Exception as e:
                    print(f"Error testing {model_name} with prompt: {e}")
                    result = TestResult(
                        model_version=model_name,
                        response_time=0,
                        token_usage=0,
                        quality_score=0,
                        error_count=1
                    )
                    model_results.append(result)
            
            self.results[model_name].extend(model_results)
            all_results[model_name] = self._summarize_results(model_results)
        
        return all_results
    
    def _extract_response(self, response_data: Dict[str, Any]) -> str:
        """从响应数据中提取文本"""
        # 根据实际API响应结构调整
        if 'choices' in response_data and response_data['choices']:
            return response_data['choices'][0].get('message', {}).get('content', '')
        return ''
    
    def _calculate_token_usage(self, response_data: Dict[str, Any]) -> int:
        """计算token使用量"""
        usage = response_data.get('usage', {})
        return usage.get('total_tokens', 0)
    
    def _summarize_results(self, results: List[TestResult]) -> Dict[str, float]:
        """汇总测试结果"""
        if not results:
            return {}
        
        successful_results = [r for r in results if r.error_count == 0]
        
        if not successful_results:
            return {
                'error_rate': 1.0,
                'avg_response_time': 0,
                'avg_quality': 0,
                'avg_tokens': 0
            }
        
        return {
            'error_rate': sum(1 for r in results if r.error_count > 0) / len(results),
            'avg_response_time': mean(r.response_time for r in successful_results),
            'avg_quality': mean(r.quality_score for r in successful_results),
            'avg_tokens': mean(r.token_usage for r in successful_results),
            'sample_size': len(successful_results)
        }
    
    def get_recommendation(self) -> str:
        """根据测试结果推荐最佳模型"""
        if not any(self.results.values()):
            return "No test results available"
        
        model_scores = {}
        
        for model_name, results in self.results.items():
            if not results:
                continue
            
            summary = self._summarize_results(results)
            
            # 综合评分公式（可根据业务需求调整权重）
            # 考虑响应时间、质量分数、错误率和token效率
            if summary.get('sample_size', 0) > 0:
                # 归一化评分
                time_score = 1 / (1 + summary['avg_response_time'])  # 响应时间越短越好
                quality_score = summary['avg_quality'] / 10.0  # 假设质量分数0-10
                error_score = 1 - summary['error_rate']
                token_efficiency = 1000 / (summary['avg_tokens'] + 1)  # 每千token效率
                
                # 加权综合评分
                total_score = (
                    time_score * 0.3 +
                    quality_score * 0.4 +
                    error_score * 0.2 +
                    token_efficiency * 0.1
                )
                
                model_scores[model_name] = total_score
        
        if not model_scores:
            return "No valid models to recommend"
        
        best_model = max(model_scores.items(), key=lambda x: x[1])
        return f"Recommended model: {best_model[0]} (score: {best_model[1]:.3f})"

8. 总结与延伸

通过这次ChatGPT API的深度集成，我深刻体会到，一个稳定的AI服务集成需要考虑的远不止简单的API调用。从认证管理、错误处理到性能优化，每一个环节都需要精心设计。

关键经验总结：

认证令牌一定要实现自动刷新机制，并处理好并发刷新的竞态条件
流式响应处理要注意分块边界和编码问题
速率限制不是敌人，而是朋友——合理的限流策略能提升系统稳定性
日志中的敏感信息过滤是安全底线，不能忽视
会话状态管理能显著提升用户体验，特别是在移动网络环境下

延伸学习资源：

如果你对AI应用开发感兴趣，想亲手搭建一个能实时对话的AI应用，我强烈推荐尝试一下从0打造个人豆包实时通话AI这个动手实验。我自己也体验过，它从语音识别到对话生成再到语音合成的完整链路非常清晰，而且实验指导很详细，即使是初学者也能跟着一步步完成。通过这个实验，你不仅能理解AI应用的后端逻辑，还能亲手打造一个真正可用的语音交互应用，这种从理论到实践的体验真的很棒。