一、机器学习是什么?
-
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
-
直观上理解,机器学习(Machine Learning,ML)是研究计算机模拟人类的学习活动,获取知识和技能的理论和方法,改善系统性能的学科。
因为计算机系统中“经验‘通常以数据的形式存在,所以机器要利用经验,就必须对数据
进行分析。因此其过程可以简述如下:
- 建立模型:设计计算机可以自动“学习”的算法
- 训练:用数据训练算法模型(算法从数据中分析规律)
- 预测:利用训练后的算法完成任务(根据学习的规律为未知数据进行分类和预测)
通过周志华老师西瓜书上面的描述为下图:
二、机器学习能做什么?
数据集上
一个重要问题: 原书籍已经变成分散且混杂的多个书页,如何拼接相邻的书页? 人工完成书页拼接十分困难
书页数量大,且分布在多处 部分损毁较严重,字迹模糊 需要大量掌握古文字的专业人才 近年来,古文献的数字化浪潮给自动文学修复提供了机会 以色列特拉维夫大学的学者将机器学习用于自动的书页拼接
回归、分类、聚类是机器学习最常见的三大任务。
回归是一种数学模型,利用数据统计原理,对大量统计数据进行数学处理,确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式)。
分类就是对数据分进行分类,把它们分到已知的每一个类别。
-
聚类就是对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一个类簇中。
-
降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,用一个相对低维的向量来表示原始高维度的特征。
-
密度估计是是概率统计学的基本问题之一,就是由给定样本集合求解随机变量的分布密度函数问题。大多数人已经熟悉了其中一种常用的密度估计技术:直方图。
-
排序学习是信息检索和搜索引擎研究的核心问题之一,通过机器学习方法学习一个分值函数对待排序的候选进行打分,再根据分值的高低确定序关系。
具体实例
由于我研究反向是智能驾驶和路径规划,所以我将通过自动驾驶来解释,下图为机器学习自动驾驶上的应用:
三、基本术语
四、总结
(1)机器学习已成为新的学科,它综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学等形成了机器学习理论基础。
(2)融合了各种学习方法,且形式多样的集成学习系统研究正在兴起。
(3)机器学习与人工智能各种基础问题的统一性观点正在形成。
(4)各种学习方法的应用范围不断扩大,部分应用研究成果已转化为产品。
(5)与机器学习有关的学术活动空前活跃
此文在稀土掘金社区首发,原文地址:我的技术年终总结——机器学习 |社区征文 - 掘金 (juejin.cn)