机器学习导读

文章目录

机器学习导读

机器学习导读

1 虚拟环境的作用

创建新的环境：mkvirtualenv [env-name] 
查看环境列表：lsvirtualenv
复制环境：cpvirtualenv [env-name] 
删除环境：rmvirtualenv [env-name] 

切换虚拟环境：workon [env-name] 
退出虚拟环境：deactivate

2 人工智能必备三要素

数据：学习资料
算法：学习方法
计算力：智能体的计算能力
- CPU ：核心处理器
  - 职责：管理资源、任务调度、图形计算处理 IO 密集型任务，
  - 应用：文件 IO、网络 IO、标准 IO IO 操作：CPU 需要等待
- GPU ：协处理球
  - 职责：分担 CPU 工作
  - 应用：适合计算密集任务
- TPU ：Tensor 张量处理器
  - 职责：专门机器学习的处理器

3 AI、ML、DL

机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展来的

4 IT 行业需要机器学习？

解决问题靠的是 编码 ，传统行业靠的是硬编码、固定编码。需要掌握更多的专业知识，编码的代码量也非常复杂。
机器学习可以 动态解决问题 ，具有自我生命力、自我成长。

5 人工智能分支

计算机视觉（CV）

指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。
自然语言处理（NLP）
- 语音识别
  
  识别语音 (说出的语言) 并将其转换成对应文本的技术。相反的任务 (文本转语音 / TTS) 也是这一领域内一个类似的研究主题。
- 文本挖掘/分类
  
  主要是指文本分类，该技术可用于理解、组织和分类结构化或非结构化文本文档。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。
- 机器翻译
  
  利用机器的力量自动将一种自然语言 (源语言) 的文本翻译成另一种语言 (目标语言)。
机器人

机器人学 (Robotics) 研究的是机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理。

鸡尾酒会效应（cocktail party effect）是指人的一种听力选择能力，在这种情况下，注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。该效应揭示了人类听觉系统中令人惊奇的能力，即我们可以在噪声中谈话。

6 进程、线程、协程

进程： 资源分配的最小单位 ：保存在硬盘上的程序运行以后，会在内存空间里形成一个独立的内存体，这个内存体有自己独立的地址空间，有自己的堆，上级挂靠单位是操作系统。操作系统会以进程为单位，分配系统资源（CPU 时间片、内存等资源）。
线程：又称为轻量级进程 (Lightweight Process，LWP），是 操作系统调度（CPU调度）执行的最小单位 。

协程：一种比线程更加轻量级的存在，协程不是被操作系统内核所管理，而完全是由程序所控制（也就是在用户态执行）。这样带来的好处就是性能得到了很大的提升，不会像线程切换那样消耗资源。

7 机器学习工作流程

从原始的数据空间，找到一个 f (x)，将其映射到高层语义空间。

1 获取数据
- 一行数据称为一个样本，多行数据称为 样本集 （数据集）
- 一列数据称为一个特征，也称为 属性
- 数据集分为训练数据和测试数据
2 数据预处理
- 对数据进行缺失值、去除异常值等处理
3 特征工程
- 定义：
  
  使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好作用的过程
  
  数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。
- 研究内容：
  - 特征提取 （feature extraction）
    
    将任意数据（如文本或者图像）转换为可用于机器学习的数字特征
    - 在进行模型训练的时候，训练数据是行列形式的
    - 对于文本、图片这种非行列形式的数据，要进行转换
    - 特点：从无到有
  - 特征预处理 （feature preprocessing）
    
    通过一些转换函数将特征数据转换成更加适合算法模型的特征的过程
  - 特征降维 (feature decomposition)
    
    在某些限定条件下，降低随机变量个数，得到一组 “不相关” 主变量的过程
  - 特征选择 （feature selection）
    
    从特征中选择出一些重要特征，但不会改变原来的数据。
  - 特征组合 （feature crosses）
    
    把具有相关性的特征通过加法、乘法等合并成一个特征
4 机器学习（模型训练）
- 选择合适的算法对模型进行训练
5 模型评估
- 定义：对训练好的模型进行评估
- 分类：
  - 分类模型评估
    - 评价指标：精确率、召回率、F1-score、AUC 指标等
  - 回归模型评估
    - 评价指标：相对平方误差（Relative Squared Error，RSE）、平均绝对误差（Mean Absolute Error，MAE)、相对绝对误差（Relative Absolute Error，RAE)
  - 聚类模型评估
  - 拟合 ：模型评估用于评价训练好的的模型的表现效果
    - 欠拟合
      - 定义：模型学习的太过粗糙，连训练集中的样本数据特征关系都没有学出来。
      - 解决方案：对数据集加特征
    - 过拟合
      - 定义：所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在测试数据集中表现不佳。（泛化能力差或普适性差）
      - 解决方案：
        
        （1）在数据基本处理阶段进行数据清洗
        
        （2）增加训练样本
        
        （3）通过惩罚机制限制学习力度，正则化。

8 机器学习算法分类

监督学习
1. 解决问题：分类问题、回归问题。
2. 分类问题预测出是一个离散值。
3. 回归问题预测出的是连续值。
4. 输入样本：都是有目标值（标签）的数据。
非监督学习
1. 解决问题：聚类问题。
2. 输入样本：没有目标值（标签）的数据。
半监督学习

一部分数据有标签、一部分数据没有标签。
强化学习
1. 强化学习是一种特殊的机器学习方法。
2. 传统的机器学习方法输入样本，输出的是：动作。
3. 强化学习输入的也是样本（环境信息）
4. 强化学习是一种与环境交互式的学习方法。
5. 智能体、环境、动作、奖励。

9 深度学习 (Deep Learning)

也称为深度结构学习 (Deep Structured Learning)、层次学习 (Hierarchical Learning) 或者是深度机器学习 (Deep Machine Learning）是一类算法集合，是机器学习的一个分支。
“深度学习” 这个词语很古老，它在 1986 年由 Dechter 在机器学习领域提出，然后在 2000 年有 Aizenberg 等人引入到人工神经网络中。而现在，由于 Alex Krizhevsky 在 2012 年使用卷积网络结构赢得了 ImageNet 比赛之后受到大家的瞩目。
卷积网络之父： Yann LeCun
神经网络各层负责内容：
- 1 层：负责识别颜色及简单纹理
- 2 层：一些神经元可以识别更加细化的纹理，布纹，刻纹，叶纹等
- 3 层：一些神经元负责感受黑夜里的黄色烛光，高光，萤火，鸡蛋黄色等。
- 4 层：一些神经元识别萌狗的脸，宠物形貌，圆柱体事物，七星瓢虫等的存在。
- 5 层：一些神经元负责识别花，黑眼圈动物，鸟，键盘，原型屋顶等。