本文将从
机器学习、监督学习、无监督学习
三个方面,带您了解机器学习简介: Introduction to Machine Learning。
机器学习
机器学习初体验: 现实生活中,我们每天都在不知不觉中使用了各种各样的机器学习算法。
- 网络搜索优化:
- Google运用学习算法优化网页排名,确保搜索结果精准。
- 该算法通过用户搜索行为持续学习,提升用户体验。
- 社交媒体应用 :
- 在抖音,机器学习算法负责视频内容的个性化推送。
- 系统根据用户的兴趣标签和行为数据,智能推荐相关视频。
- 垃圾邮件过滤 :
- 垃圾邮件过滤器使用学习算法区分垃圾邮件和正常邮件。
- 这帮助我们专注于重要邮件,免受垃圾邮件干扰。
- 购物自动推荐 :
- 电商平台利用机器学习技术,根据用户的购物历史和浏览行为,自动推荐相关商品。
- 这种个性化推荐提升了购物体验,也促进了商品销售。
机器学习的定义: 让计算机通过对大量数据进行分析和学习,从而可以自动进行预测和决策的技术。
- 亚瑟·塞穆尔 Arthur Samuel (1959).
- Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
- 亚瑟·塞穆尔将机器学习定义为:在没有明确为计算机编写(完成某项具体任务的)程序的情况下,让计算机拥有 “学习” 能力的一个研究领域。
- 汤姆·米切尔 Tom Mitchell (1998).
- Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
- 汤姆·米切尔提出了一个更正式的定义:如果一个计算机程序在任务 T 上的性能度量 P ,通过经验 E 而提高,那么我们称这个计算机程序通过经验 E 来学习。
机器学习的本质 : 机器自己学会如何去做。
机器通过 大量数据的学习和实践 ,自动发现规律、优化性能,从而能够 自主地进行预测、决策和解决问题 。它使机器具备从经验中学习的能力,不断优化自身,最终达成特定目标。这一过程 无需人类进行明确的编程和规则设定 ,而是机器自我探索和进步。
- 自主提取规律:机器学习能从大量数据中自动发现潜在规律和模式。
- 优化预测与决策:通过持续学习和调整,机器学习能提升预测和决策的准确性。
- 自主解决问题:机器学习训练后,能自主处理新数据,解决各类问题。
机器学习的分类: 分别是监督学习 (Supervised Learning) 和无监督学习 (Unsupervised Learning)。
监督学习的定义:**** Supervised Learning 指的就是我们给学习算法一个数据集,这个数据集由“正确答案”组成。
- 监督学习是指我们给学习算法一个包含“正确答案”的数据集,并基于这些样本进行预测。
- 回归问题:预测连续值的结果,如房价预测。
- 分类问题:预测离散的输出值,如判断肿瘤是否恶性。
监督学习的本质: Supervised Learning 就是我们要明确告诉计算机如何做某件事情。
监督学习的2个任务: 回归(Regression)、分类(Classification)
- 回归(Regression)
- 任务: 预测连续数值输出。
- 目标: 根据输入特征估计一个连续值。
- 数据特点: 处理的是连续型数据,这类数据可以在某个范围内取任意实数值,如温度、身高、体重、价格等。
- 分类(Classification)
- 任务: 预测离散的类别标签。
- 目标: 将实例分配到两个或多个离散类别中。
- 数据特点: 处理的是离散型数据,即不连续的数据,如性别、天气状况等
监督学习,详细了解看这篇 :机器学习算法 - 一文搞懂SL(监督学习)
无监督学习的定义:**** Unsupervised Learning 中,没有属性或标签这一概念,也就是说所有的数据都是一样的,没有区别。
- 无监督学习中,数据集没有标签或属性,算法需要自行发现数据中的结构。
- 聚类算法是无监督学习的一个例子,它将数据分为不同的类别或聚类。
- 应用实例包括新闻聚合、社交网络分析。
无监督学习的本质: Unsupervised Learning 则意味着我们要让程序自己进行学习。
在 Unsupervised Learning 中,我们只有一个数据集,没人告诉我们该怎么做,我们也不知道每个数据点究竟是什么意思。相反,它只告诉我们,现在有一个数据集,你能在其中找到某种结构吗?
聚类算法: K均值聚类将数据集划分为K个不同的群组或聚类,每个聚类的中心是该聚类的数据点的平均值。
- 初始化:选择K个数据点作为初始聚类中心(重心)。这
- 分配数据点到聚类:对于数据集中的每个数据点,计算它与每个聚类中心的距离,并将其分配给距离最近的聚类中心。
- 更新聚类中心:对于每个聚类,计算其所有数据点的平均值(在多维空间中),并将该平均值设置为新的聚类中心。
- 迭代:重复步骤2和3,直到满足某个停止条件。
无监督学习,详细了解看这篇 :机器学习算法 - 一文搞懂UL(无监督学习)