人工智能算法指南
原创 2023-02-20 14:29 倚歌 来源:AGV网算法定义了人工智能在处理和分析数据时将使用的规则、条件和方法。
如果你以任何身份使用互联网,你将不可避免地遇到算法。从谷歌的搜索引擎到Facebook的时间轴算法,再到帮助金融机构处理交易的系统,算法是人工智能的基础。
尽管算法是我们数字生活的核心,但除了创造它们的人之外,其他人往往不理解。臭名昭著的是,尽管其平台支持近40万名全职创作者,但Youtube的算法--它推荐视频并关注与用户兴趣相关的频道--因其是一个模糊的黑匣子而闻名,创作者们通过这个黑匣子来获得财富和饥荒。
本文将照亮科技行业的这一基本方面。
什么是算法?
在基本术语中,算法是一组坚实定义的步骤,需要采取这些步骤以达到计划的结果。特别是,它被用来解决数学方程。它可以被分解成三个广泛的组成部分。
输入:在问题开始时你已经知道的信息。
算法:需要按部就班地实现的序列。
输出:如果顺序中的所有步骤都被完全遵循,那么预期的结果。
科技界以外的一个类似算法的系统的例子是烹饪食谱。你有你的输入(原料),你有你的算法(需要或多或少准确遵循的食谱步骤),你有你的输出(希望可以食用的菜肴)。
当我们说算法是我们数字生活的原子结构的一部分时,我们也不是在开玩笑。你所使用的任何计算机程序都在运行多种算法来执行其功能。从你的网络浏览器到你的文字处理器,再到自3.0版本以来一直包含在Windows中的微软纸牌游戏,它们中的每一个都是依靠算法运行的。
算法在人工智能中是如何工作的?
从根本上说,人工智能(AI)是一个计算机程序。这意味着,像火狐浏览器或微软Word或Zoom或Slack一样,你遇到的任何人工智能或机器学习(ML)解决方案将从头开始用算法构建。
算法在人工智能以及机器学习中的作用是可变的。广义上讲,它们定义了人工智能在处理和分析数据时将使用的规则、条件和方法。这可以简单到定义人工智能处理一张发票所需的步骤,到让人工智能在包含数十万张图片的数据集中过滤掉有狗的图片。
机器学习中的算法有助于预测输出,即使给定的是未知的输入。人工智能算法通过解决不同类别的问题发挥类似的功能。人工智能算法解决的问题类型可以分为三大类。
分类。机器学习的一种类型,用于预测一个项目属于哪一类,或哪一个类别。一个例子是通过编程让人工智能区分垃圾信息和你真正需要的信息。
回归。机器学习的一种类型,用于根据一个物体的功能来预测数字标签。一个例子是使用历史数据来预测股票市场的价格和预测。
聚类。机器学习的一种类型,用于根据物体功能的相似性将其分为不同的组。一个例子是使用一种算法对一组金融交易进行分类,并挑选出潜在的欺诈行为的实例。
另见。人工智能是如何通过人工智能增强改变软件开发的
人工智能算法的类型
分类算法
下面是一些用于人工智能和机器学习的分类算法的例子。
二元逻辑回归
二元逻辑回归可以预测一个二元结果,如是/否或通过/失败。其他形式的逻辑回归,如多项式回归,可以预测三种或更多的可能结果。逻辑回归经常可以在疾病预测、欺诈检测和流失预测等用例中发现,其数据集可以被用来评估风险。
奈何贝叶斯(Naive Bayes)
奈何贝叶斯是一种概率算法,它将独立假设纳入模型,这意味着它的操作假设是数据集中没有两个测量值是相互关联或以任何方式相互影响的。这就是它们被称为 "天真 "的原因。它通常用于文本分析和分类模型,它可以将单词和短语分类到指定的类别。
K 最近邻 (k-NN)
虽然有时也用于解决回归问题,但k-NN最常用于解决分类问题。在解决分类问题时,它将数据点分成多个类别到一个平面上,以预测新数据点的类别标签。新数据点根据平面上最常出现在其周围的类别标签进行新分类。k-NN 也被称为“惰性学习”算法,这意味着它不经过完整的训练步骤,而只是保存训练数据集。
决策树
作为一种监督学习算法,决策树也可用于分类问题或回归问题。之所以称为“树”,是因为它具有层次结构。从根节点开始,它分支成更小的内部节点或决策节点,在这些节点中进行评估以生成子集,这些子集由终端节点或叶节点表示。
一个例子是从武术的根节点开始,然后将其分为具有引人注目的重点的武术和具有格斗重点的武术的内部节点。然后,这些内部节点可以拆分为特定武术的终端节点,例如拳击、柔术和泰拳。这些算法非常适合数据挖掘和知识发现任务,因为它们易于解释并且只需要很少的数据准备就可以部署。
随机森林
随机森林利用多个决策树的输出来产生预测。与决策树一样,随机森林可用于解决分类和回归问题。每棵树都由从训练数据集中抽取的数据样本组成,该数据样本使用放回抽样。这为决策树增加了随机化,即使它们来自完全相同的数据集。
在分类问题中,多数票是由这些随机决策树的输出决定的。例如,假设有 10 个决策树专门用于确定裙子的颜色。三套说是蓝色,两套说是黑色,四套说是粉色,一套说是红色。这件衣服将被归类为粉红色。
随机森林是金融机器学习模型的首选算法,因为它可以减少预处理和数据管理任务所需的时间。欺诈检测、期权定价和客户信用风险评估都是其在金融领域的应用实例。随机森林算法是Leo Breiman 和 Adele Cutler 的商标。
回归算法
以下是人工智能和机器学习中使用的回归算法的一些示例。
线性回归
线性回归是一种在统计学和社会科学中都使用的算法,用于定义因变量和自变量之间的线性关系。这种算法的目标是用给定的数据点确定一条可能的趋势线。在确定广告支出如何影响收入时,企业通常会使用线性回归。
泊松回归
泊松回归是一种回归,其中始终假设预测变量服从泊松分布。泊松分布是一种概率函数,可以帮助确定给定数量的事件在特定的固定时间段内发生的概率。
例如,您可以使用泊松回归来确定一个高中生班级在 24 小时内解决魔方的可能性有多大。或者,您可以根据餐厅一周内服务的平均用餐人数来预测餐厅在特定日期接待更多顾客的可能性。
普通最小二乘 (OLS) 回归
OLS 回归是最流行的回归算法之一,它以序数值作为输入来确定多个变量之间的线性关系。该算法在预测某项事物在任意范围内排名的可能性时最有用,例如在 1-10 范围内,一款游戏被评为 7 的可能性有多大。它经常用于社会科学,因为该领域的调查经常要求参与者按比例评估某些事物。OLS 回归也称为排序学习。
套索(最小绝对选择和收缩算子)回归
套索回归采用 OLS 回归并在方程中添加一个惩罚项。这可以帮助您创建比简单 OLS 更复杂的数据表示。它还可以使表示更准确。套索回归也称为 L1 正则化。
神经网络回归
神经网络是目前最流行的 AI 和 ML 训练方法之一。顾名思义,它们受到人脑的启发,并且擅长处理对于更常见的机器学习方法来说太大而无法持续处理的数据集。
神经网络是一种多功能工具,只要提供适当数量的先验数据来预测未来事件,就可以执行回归分析。例如,您可以向神经网络提供客户的网络活动数据和元数据,以确定客户不买任何东西就离开您的网站的可能性有多大。
聚类算法
以下是人工智能和机器学习中使用的聚类算法的一些示例。
K-均值聚类
k 均值聚类是一种无监督学习算法,它采用具有某些特征和与这些特征相关的值的数据集,并将数据点分组到多个集群中。“K”代表您尝试将数据点分类到的簇数。K-means 聚类拥有许多可行的用例,包括文档分类、保险欺诈检测和通话详细记录分析。
均值偏移聚类
均值偏移聚类是一种简单、灵活的聚类技术,通过将点移向数据点密度最高的区域(称为模式),将数据点分配到聚类中。在此设置中如何定义集群取决于多种因素,例如距离、密度和分布。它也被称为“模式搜索算法”。均值漂移聚类在图像处理、计算机视觉、客户细分和欺诈检测等领域都有用例。
基于密度的噪声应用空间聚类 (DBSCAN)
DBSCAN 在数据点密度较低的点将高密度簇彼此分开。Netflix 的电影推荐算法使用类似的聚类方法来确定接下来向您推荐什么。
例如,如果你观看了最近的 Netflix 电影“Do Revenge”,该算法会查看其他也观看过“Do Revenge”的用户,并根据这些用户接下来观看的内容推荐电影和节目。DBSCAN 擅长处理数据集中的异常值。DBSCAN 的可行用例包括客户细分、市场研究和数据分析。
使用层次结构的平衡迭代减少和聚类(BIRCH)
BIRCH 是一种常用于处理大型数据集的聚类技术。它可以一次扫描整个数据库,并专注于数据库中数据点密度高的空间,并提供精确的数据摘要。
实现 BIRCH 的一种常见方法是与其他无法处理大型数据集的聚类方法一起使用。在 BIRCH 生成其摘要后,其他聚类方法将运行摘要并对其进行聚类。因此,BIRCH 的最佳用例是用于普通聚类方法无法有效处理的大型数据集。
高斯混合模型 (GMM)
与泊松回归利用泊松分布的概念非常相似,GMM 将数据集建模为多个高斯分布模型的混合体。高斯分布也称为“正态分布”,因此,可以直观地假设数据集的聚类将沿着高斯分布的线分布。
GMM 可用于处理大型数据集,因为它保留了奇异高斯模型的许多优点。GMM 已在语音识别系统、异常检测和股票价格预测中得到应用。