机器学习算法选择

3

我刚接触机器学习。我的问题是制作一个机器,根据学生的位置和兴趣领域为其选择大学,即它应该在学生地址所在城市选择大学。在选择算法方面,我感到困惑,我是否可以使用感知机算法来完成这个任务。

6个回答

1

首先,你需要一个标记好的数据集。

听起来这个问题可以被分解为一个机器学习问题,但是你首先需要一组正面和负面的例子来进行训练。

你的数据集有多大?你有哪些特征可用?一旦你回答了这些问题,你就可以选择最适合你数据特征的算法。


1
没有硬性规定哪种机器学习算法适用于哪个任务。您最好尝试几种算法,看哪一种能够实现最佳结果。您可以使用实现了许多不同机器学习算法的Weka工具包。是的,您可以使用感知器算法解决您的问题,但这并不意味着您会得到良好的结果。
从您的描述中,听起来您要解决的问题实际上并不需要机器学习。如果您只想将学生与提供该领域课程的最近的大学匹配,那么您可以在不进行任何学习的情况下完成此操作。

1
我同意第一个评论,如果学生必须住在大学附近,那么您可能不需要机器学习。如果您想使用ML算法,最好考虑从哪些数据开始。我想到的是,为每个特征设置某些主题/领域的大学向量。然后计算与学生理想特征向量类似的向量之间的距离。最小化这个距离。

0
我建议使用决策树来解决这个问题,它类似于一组 if else 规则。您可以将学生的位置和兴趣领域作为 if 和 else if 语句的条件,并为他推荐一所大学。由于这是输入到输出的直接映射,基于规则的解决方案可以工作,这里不需要学习。

0
也许你可以使用“推荐系统”或聚类方法,你可以更深入地探究“协同过滤”(推荐系统)或k均值(聚类)等技术,但是正如一些人所说,首先需要数据进行学习,也许你的问题可以在没有机器学习的情况下解决。

0

嗯,这个问题没有直接而确定的答案。答案取决于许多因素,例如问题陈述和所需输出的类型,数据的类型和大小,可用的计算时间,数据中的特征和观察值等。

  1. 训练数据的大小

  2. 输出的准确性和/或可解释性

模型的准确性意味着函数预测给定观察值的响应值,该响应值接近于该观察值的真实响应值。高度可解释的算法(如线性回归等限制性模型)意味着可以轻松地理解任何单个预测器与响应之间的关联,而灵活的模型以低可解释性为代价提供更高的准确性。

  1. 速度或训练时间

更高的准确性通常意味着更长的训练时间。此外,算法需要更多时间来训练大型训练数据。在现实世界的应用中,算法的选择主要受这两个因素的驱动。

像朴素贝叶斯、线性回归和逻辑回归这样的算法易于实现且运行速度快。需要调整参数的算法(如SVM)、收敛时间长的神经网络和随机森林需要大量时间来训练数据。

  1. 线性性

许多算法都基于这样的假设:类别可以通过一条直线(或其高维类比)来分割。如逻辑回归和支持向量机。线性回归算法则假设数据趋势遵循一条直线。如果数据是线性的,那么这些算法表现得很好。

  1. 特征数

数据集可能具有大量特征,其中不一定全部都是相关和显著的。对于某些类型的数据,如基因组或文本数据,特征数可以相对于数据点数量非常大。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接