顿搜
机器学习 (ML) 及其基本概念——人工智能(AI)的理论基础
机器学习
定义
探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。
- Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科
- Langley(1996) :机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
- Tom Michell (1997): “机器学习是对能通过经验自动改进的计算机算法的研究”
学习能力
针对经验E (experience) 和一系列的任务 T (tasks) 以及一定表现的衡量 P,如果随着经验 E 的积累,针对定义好的任务 T 可以提高表现 P,就说计算机具有学习能力
机器学习步骤
准备训练样本 -> 提取特征-> 学习函数 -> 预测
评估标准
- 准确率
- 召回率
- 速度:算法的复杂度是否很高
- 强壮性:当数据中有噪音或者有缺失值的时候,算法能否正确稳定的工作
- 可规模性:当数据成指数级增长时,算法会不会仍然具有良好的性能
- 可解释性:算法得到的结果是否可解释
机器学习应用
- 数据挖掘——游戏币充值(用户流失问题)
- 推荐系统——广告推荐
- 计算机视觉——无人驾驶
- 模式识别
- 语音识别
- 自然语言处理
- 统计学习
基本概念
概念学习
概念学习:指从有关某个布尔函数的输入输出训练样例中,推断出该布尔函数的过程
训练集
英文名:training set/data
训练集/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集
测试集
英文名:testing set/data
测试集/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集
验证集
英文名:volidation set/data
用于调整参数的集合
特征向量
英文名:features/feature vector
特征向量:属性的集合,通常用一个向量来表示,附属于一个实例
标记
英文名:label
标记:$c(x)$, 实例类别的标记
正例
英文名:positive example
反例
英文名:negative example
分类
英文名:classification
分类:目标标记为类别型数据(category)
回归
英文名:regression
回归:目标标记为连续性数值 (continuous numeric value)
有监督学习
英文名:supervised learning
有监督学习:训练集有类别标记(class label)
无监督学习
英文名:unsupervised learning
无监督学习:无类别标记(class label)
半监督学习
英文名:semi-supervised learning
半监督学习:有类别标记的训练集 + 无标记的训练集