我刚接触机器学习。我的问题是制作一个机器,根据学生的位置和兴趣领域为其选择大学,即它应该在学生地址所在城市选择大学。在选择算法方面,我感到困惑,我是否可以使用感知机算法来完成这个任务。
我刚接触机器学习。我的问题是制作一个机器,根据学生的位置和兴趣领域为其选择大学,即它应该在学生地址所在城市选择大学。在选择算法方面,我感到困惑,我是否可以使用感知机算法来完成这个任务。
首先,你需要一个标记好的数据集。
听起来这个问题可以被分解为一个机器学习问题,但是你首先需要一组正面和负面的例子来进行训练。
你的数据集有多大?你有哪些特征可用?一旦你回答了这些问题,你就可以选择最适合你数据特征的算法。
嗯,这个问题没有直接而确定的答案。答案取决于许多因素,例如问题陈述和所需输出的类型,数据的类型和大小,可用的计算时间,数据中的特征和观察值等。
训练数据的大小
输出的准确性和/或可解释性
模型的准确性意味着函数预测给定观察值的响应值,该响应值接近于该观察值的真实响应值。高度可解释的算法(如线性回归等限制性模型)意味着可以轻松地理解任何单个预测器与响应之间的关联,而灵活的模型以低可解释性为代价提供更高的准确性。
更高的准确性通常意味着更长的训练时间。此外,算法需要更多时间来训练大型训练数据。在现实世界的应用中,算法的选择主要受这两个因素的驱动。
像朴素贝叶斯、线性回归和逻辑回归这样的算法易于实现且运行速度快。需要调整参数的算法(如SVM)、收敛时间长的神经网络和随机森林需要大量时间来训练数据。
许多算法都基于这样的假设:类别可以通过一条直线(或其高维类比)来分割。如逻辑回归和支持向量机。线性回归算法则假设数据趋势遵循一条直线。如果数据是线性的,那么这些算法表现得很好。
数据集可能具有大量特征,其中不一定全部都是相关和显著的。对于某些类型的数据,如基因组或文本数据,特征数可以相对于数据点数量非常大。