链接怎么做(链接怎么做出来的)

本文约1500字。建议看5分钟。这篇文章向你介绍了无监督学习的12个最重要的算法和用例。无监督学习是另一种主流的机器学习方法,与监督学习相反。无监督学习是指没有

本文约1500字。建议看5分钟。

这篇文章向你介绍了无监督学习的12个最重要的算法和用例。

无监督学习是另一种主流的机器学习方法,与监督学习相反。无监督学习是指没有数据标注,只有数据本身。

无监督学习的12个最重要的算法介绍及其用例总结(附链接)

有几种类型的无监督学习算法。以下是12个最重要的问题:

1.聚类算法根据相似性将数据点分成簇。

K-means聚类是一种流行的聚类算法,它将数据分成K个组。

2.降维算法降低了数据的维数,使其更易于可视化和处理。

主成分分析(PCA)是一种降维算法,将数据投影到低维空。主成分分析可用于将数据的维数降低到其最重要的特征。

3.异常检测算法识别异常值或数据点。

支持向量机可用于异常检测(示例)4.分割算法将数据分成段或组[12]。异常检测算法用于检测数据集中的异常值。异常检测的方法有很多种,但大多数都可以分为有监督的和无监督的。有监督的方法需要标注数据集,无监督的方法不需要。

无监督异常检测算法通常基于密度估计[20],试图找到数据空之间的密集区域之外的点。

一个简单的方法是计算每个点到k个最近邻的平均距离。距离相邻点非常远的点很可能是异常点。

基于密度的异常检测算法有很多,包括局部离群因子(LOF)和支持向量域描述(SVDD)。这些算法比简单的K-最近邻法更复杂,通常可以检测到更微妙的异常[21]。大多数异常检测算法都需要调整,比如指定一个参数来控制算法对异常的敏感度。如果参数太低,算法可能会错过一些异常。如果设置过高,算法可能会产生误报(将正常点识别为异常点)。

[26]

分割算法可以将图像分为前景和背景。

这些算法可以自动将数据集分割成有意义的组,无需人工监督。该领域中一个众所周知的算法是k-means算法。该算法通过最小化组内距离的平方和将数据点分成k组。

另一种流行的分割算法是均值漂移算法。该算法通过迭代地将每个数据点移动到其局部邻域的中心来实现。均值漂移对异常值具有鲁棒性,可以处理密度不均匀的数据集。但是在大型数据集上运行它的计算成本会非常高。

高斯混合模型(GMM)是可以用于分割的概率模型。Gmm以前需要大量的计算来训练,但是最近的研究进展让它变得更快。Gmm非常灵活,可以用于任何类型的数据。但有时它们并不总是产生最好的结果。对于简单数据集,k-means是一个不错的选择,而gmm更适合复杂数据集。均值漂移在任何情况下都可以使用,但是在大数据集上的计算成本会很高。

5.去噪算法减少或去除数据中的噪声。

小波变换可用于图像去噪。但是,各种来源可能会产生噪声,包括数据损坏、丢失值和异常值。去噪算法通过减少数据中的噪声量来提高无监督学习模型的准确性[10]。

现有的去噪算法有很多,包括主成分分析(PCA)、独立成分分析(ICA)和非负矩阵分解(NMF)[11]。

6.链接预测算法预测数据点之间的未来连接(例如,网络中两个节点之间的未来交互)

预测可以用来预测谁会成为社交网络中的朋友。更常用的链路预测算法之一是优先连接算法[15],该算法预测如果两个节点具有许多现有连接,则它们更有可能被连接。

另一种流行的链路预测算法是本地路径算法,该算法预测如果两个节点共享一个共同的邻居[27],则它们更有可能被关联。这种算法可以捕获“结构等价”的概念[16],因此它经常用于生物网络中。

最后,带重启的随机行走算法也是一种链路预测算法,模拟一个人在网络上随机行走,在随机节点重启行走器[17]。然后,行人到达特定节点的概率被用来衡量两个节点之间连接的可能性。

7.强化学习算法通过反复实验来学习。

Q-learning是基于值的学习算法的一个例子[1];它实现起来简单且通用。但是Q-learning有时会收敛到次优解[18]。再比如TD学习,在计算上对Q-learning要求较高,但通常能找到更好的解[19]。

8.生成模型:该算法使用训练数据生成新数据。

编码器是一个自生成的模型,可用于从图像数据集创建独特的图像。在机器学习中,生成模型是捕获一组数据的统计属性的模型。这些模型可以用来生成新数据,就像它们使用的训练数据一样。

生成的模型用于各种任务,如无监督学习、数据压缩和去噪[22]。模型有很多种,如隐马尔可夫模型和玻尔兹曼机[22]。每种模式都有其优点和缺点,适合不同的任务。

隐马尔可夫模型擅长对序列数据建模,而玻尔兹曼机器更擅长对高维数据建模[22]。通过在未标记的数据上训练它们,生成的模型可以用于无监督学习。一旦模型经过训练,就可以用来生成新数据。然后,这些生成的数据可以由人类或其他机器学习算法进行标记。这个过程可以重复,直到生成模型学会生成数据,就像期望的输出一样。

9.随机森林是一种机器学习算法,可用于监督和非监督学习[9]

对于无监督学习,随机森林可以找到一组相似的条目,识别离群值,并压缩数据[9]。

对于有监督和无监督的任务,随机森林已被证明优于其他流行的机器学习算法(如支持向量机)[9]。随机森林是无监督学习的强大工具,因为它们可以处理具有许多特征的高维数据。它们还抵制拟合,这意味着它们可以很好地扩展到新数据。

10.DBSCAN是一种基于密度的聚类算法,可用于无监督学习。

它基于密度,即每个区域的点数。如果DBSCAN的组中的点靠得很近,则将它们指向一个组,如果这些点相距很远,则将忽略它们。与其他聚类算法相比,DBSCAN具有一些优势。它可以发现不同大小和形状的簇,并且不需要用户事先指定簇的数量[23] [28]。此外,DBSCAN对异常值不敏感,这意味着它可以用于查找其他数据集不能很好表示的数据。但是DBSCAN也有一些缺点。例如,可能很难在嘈杂的数据集中找到一个好的聚类。此外,DBSCAN需要一个密度阈值,这可能不适用于所有数据集[23]。

1.Apriori算法用于发现关联、频繁项集和序列模式[24]

Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。其工作原理是先找出数据中的所有频繁项集,然后利用这些项集生成规则。

Apriori算法的实现方式有很多种,可以针对不同的需求进行定制。例如,可以控制支持度和置信度阈值来找到不同类型的规则[24]。

12.Eclat算法从事务数据库中挖掘频繁项集,可用于购物车分析、入侵检测和文本挖掘[25]

Eclat算法是一种深度优先算法,采用垂直数据表示。基于概念格理论,利用基于前缀的等价关系将搜索空空间(概念格)划分为更小的子空空间(子概念格)。

这些是无监督学习中常用的算法。如果你对它们感兴趣,请详细查看以下报价(很长,建议查看你感兴趣的)。

1.Q-Learning简介:强化学习:https://www . freecodecamp . org/news/an-introduction-to-Q-Learning-reinforcement-Learning-14 ac0 b 4493 cc/

2.q-学习视频演练:https://www.youtube.com/watch? v = 4d cgjcur-1o

3.无监督学习:使用DBSCAN进行聚类:https://web . cs . dal . ca/~ kall ada/stat 2450/lectures/lectures 15 . pdf

4.机器学习中的DBSCAN聚类算法:https://www . kdnugges . com/2020/04/DBS can-clustering-algorithm-machine-learning . html

5.深度生成模型中全局因素的无监督学习。arXiv:2012.08234

6.Harshvardhan GM,摩哂陀·库马尔·古利萨里亚,文殊莎·潘迪,西达尔特·斯瓦鲁普·劳塔雷,《机器学习中生成模型的综合调查和分析》,《计算机科学评论》,第38卷,2020年,100285,ISSN 1574–0137,https://doi.org/10.1016/j.cosrev.2020.100285.

7.助推:https://aws.amazon.com/what-is/boosting/

8.装袋:https://www.ibm.com/cloud/learn/bagging

9.Breiman,L. (2001年)。随机森林。机器学习,45(1),5–32页。

10.Hastie,Tibshirani,r .,& Friedman,J. (2009年)。统计学习的要素:数据挖掘、推理和预测(第二版。).斯普林格科学与商业媒体。

11.主教,C. M. (2006年)。模式识别和机器学习。斯普林格。

12.用于功能材料断层图像数据分割的机器学习技术。https://www . frontier sin . org/articles/10.3389/fmats . 2019.00145/full

13.复杂网络中的链路预测:综述。https://arxiv.org/pdf/1010.0725.pdf

14.链接预测。https://neo4j . com/developer/graph-data-science/link-prediction/

15.在线网络中的优先依恋:测量与解释。https://arxiv.org/pdf/1303.6271.pdf

16.一种新的挖掘长路径网络缺失链接的相似性度量。https://arxiv.org/pdf/2110.05008.pdf

17.重启的快速随机游走及其应用。https://www . cs . CMU . edu/~ christos/PUBLICATIONS/icdm 06-rwr . pdf

18.Q-Learning:教程和扩展。https://link . springer . com/chapter/10.1007/978-1-4615-6099-9 _ 3

19.时差学习:https://web . Stanford . edu/group/PDP lab/pdphandbook/handbook ch 10 . html

20.异常检测的机器学习技术:综述。https://www . research gate . net/profile/Salima-Benqdara/publication/325049804 _ Machine _ Learning _ Techniques _ for _ Anomaly _ Detection _ An _ Overview/links/5af 3569 b 4585157136 c 919d 8/Machine-Learning-Techniques-for-Anomaly-Detection-An-Overview . pdf

21.网络异常检测的机器学习方法。https://www . usenix . org/legacy/event/sysml 07/tech/full _ papers/Ahmed/Ahmed . pdf?ref=driverlayer.com/web

22.墨菲,K. P. (2012年)。机器学习:概率观点(第1版。).麻省理工出版社。

23.一种基于密度的大空间聚类发现算法。https://www.osti.gov/biblio/421283.

24.拉克什、阿格拉瓦尔和拉玛克里希南·斯里坎特。"挖掘关联规则的快速算法."https://www . research gate . net/publication/2460430 _ Fast _ Algorithms _ for _ Mining _ Association _ Rules

25.帕克尔伊克巴尔。算法、现实世界应用和研究方向。https://link . springer . com/article/10.1007/s 42979-021-00592-x

26.使用多代理系统的异常检测。https://users . encs . Concordia . ca/~ abdelw/papers/Khosravifar _ MSc _ s 2018 . pdf

27.用于图形生成的深度生成模型的系统调查。https://deepai . org/publication/a-systematic-survey-on-deep-generative-models-for-graph-generation

28.分层K均值聚类:优化聚类。https://www . data novia . com/en/lessons/hierarchical-k-means-clustering-optimize-clusters/

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/152066.html

发表回复

登录后才能评论