机器学习实战_K近邻算法 —— 电影分类

一、数据参考二、代码import numpy as npimport operatordef createDataSet():"""函数说明：创建数据集Parameters:NoneReturns:group - 数据集labels - 分类标签"""# 七组二维特...

迷途无归

757人浏览 · 2020-02-25 00:20:07

迷途无归 · 2020-02-25 00:20:07 发布

一、数据参考

在这里插入图片描述

二、代码

import numpy as np
import operator


def createDataSet():
    """
    函数说明：创建数据集

    Parameters:
        None

    Returns:
        group - 数据集
        labels - 分类标签

    """
    # 七组二维特征
    group = np.array([[3, 104],
                      [2, 100],
                      [1, 81],
                      [101, 10],
                      [99, 5],
                      [98, 2],
                      [18, 90]])
    # 七组特征的标签
    labels = ['爱情片', '爱情片', '爱情片', '动作片', '动作片', '动作片', "未知"]
    return group, labels


def classify0(inX, dataSet, labels, k):
    """
    函数说明：kNN算法，分类器

    Parameters:
        inX - 用于分类的数据（测试集）（1*m向量）
        dataSet - 用于训练的数据（训练集）（n*m向量array）
        labels - 分类标准（n*1向量array）
        k - kNN算法参数，选择距离最小的k个点

    Returns:
        sortedClassCount[0][0] - 分类结果

    """
    # numpy函数shape[0]获取dataSet的行数
    dataSetSize = dataSet.shape[0]
    # 将inX重复dataSetSize次并排成一列,即将inX赋值dataSetSize行、1列
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet   # tile：复制函数
    # 矩阵数乘：矩阵对应位置元素相乘（array()函数中矩阵的乘积可以使用np.matmul或者.dot()函数。而星号乘 （*）则表示矩阵对应位置元素相乘，与numpy.multiply()函数结果相同）
    sqDiffMat = diffMat ** 2  # 每个元素 ** 2
    # sum()所有元素相加，sum(0)列相加，sum(1)行相加
    sqDistances = sqDiffMat.sum(axis=1)
    # 开方，计算出距离
    distances = sqDistances ** 0.5  # 每个元素 ** 0.5
    # argsort函数返回的是distances值从小到大排序后的索引值
    sortedDistIndicies = distances.argsort()
    # 定义一个记录类别次数的字典
    classCount = {}
    # 选择距离最小的k个点
    for i in range(k):
        # 取出前k个元素的类别
        voteIlabel = labels[sortedDistIndicies[i]]
        # 字典的get()方法，返回指定键的值，如果值不在字典中返回0
        # 计算类别次数
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    # python3中用items()替换python2中的iteritems()
    # key = operator.itemgetter(1)根据字典的值进行排序
    # key = operator.itemgetter(0)根据字典的键进行排序
    # reverse降序排序字典
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    print("sortedClassCount:", sortedClassCount)
    # 返回次数最多的类别，即所要分类的类别
    return sortedClassCount[0][0]


if __name__ == '__main__':
    group, labels = createDataSet()

    result = classify0([70, 5], group, labels, 3)
    print(result)

    result = classify0([9, 79], group, labels, 3)
    print(result)

三、运行结果

在这里插入图片描述

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

AI领域简报（2026年5月3日~5月10日）

2026年5月AI领域迎来重大突破：OpenAI发布GPT-5.5系列模型，其中Instant版本成为ChatGPT新默认模型，在医学等领域幻觉率降低52.5%；同时推出三款实时语音模型和网络安全专用版GPT-5.5-Cyber。ClaudeMythos表现抢眼，发现Firefox271个漏洞，但IMF警告其加剧金融系统风险。AI医疗规模化落地，全球首家超级AI医院在海南博鳌启用。安全领域发现AI

AI编程社区

2026前端开发必学的8个技术趋势

2025年，前端开发领域经历了一场悄无声息却影响深远的变革。AI编程助手（如Cursor、Copilot）的普及让"写代码"这件事变得前所未有的容易。很多人开始担忧：前端开发是不是要被AI取代了？事实恰恰相反。AI降低的是编码的门槛，却抬高了对开发者综合能力的要求。2026年的前端开发者，需要掌握的不再仅仅是"怎么写代码"，而是"写什么样的代码"、“如何架构系统”、“怎样与AI高效协作”。本文将从

AI编程社区

Claude Code 太贵？用 CC Switch 接入 DeepSeek，API 费用从每月三百降到三十

摘要：Claude Code作为AI编程助手虽然高效但API费用昂贵（每月200-400元）。通过CC Switch工具可无缝切换至国产DeepSeek V3模型（1元/百万tokens），费用骤降至10-20元/月。文章详细介绍了安装配置方法，建议日常开发使用DeepSeek，复杂任务再切换回Claude的混合策略，可节省90%成本。同时提供了其他国产模型选项和常见问题解决方案，15分钟即可完成