Lesson1 介绍
- E:经验,也就是过去的数据,用作训练使用的数据。
- T:任务,也就是你要完成的是什么任务
- P:胜率,就是成功的概率
例子:点击“垃圾邮件”按钮过滤垃圾邮件,这里的E:找出那些是垃圾还不是垃圾的邮件的工作.T:完成过滤垃圾邮件的工作。P:是否是垃圾邮件的概率
两种算法
分别是 监督学习和非监督学习。监督学习,就是我们指定策略让计算机去执行;而非监督学习是让计算机自己去学习如何分析。
监督学习
给定一组数据集,我们给出针对每一个数据给出正确的表现,通过预测接下来的结果。这种方式是监督学习,因为数据是有标签的。
在机器学习中可能会有基于多个attribute也就是属性进行预测的方式。例如癌症和肿块的大小以及年龄的大小,两个属性来进行预测。可能有些时候,你想要使用的是无穷多个数据维度进行分析和预测。
这里讨论两种方式,分别是回归还是分类。回归就是得到连续的结果;而分类得到的是离散的。
非监督学习
聚类
聚类,通过对一组数据的分析和分组,找出共性,然后进行分类。这是聚类算法。在股票方便的研究,我在想,可以分出强势股,弱势股等。
例如:新闻分类,基因组分类,计算机集群分类(将相互协作的计算机放在一起),客户数据分析,天文数据分析(例如星系诞生)。
鸡尾酒宴会算法
通过鸡尾酒宴会算法来进行语音识别与分析。通过将宴会上两个人通过两个麦克风的录制声音,能够通过非监督学习,将背景和人的声音分离开来。
鸡尾酒算法使用了SVD。
开发工具与环境
Octave 作为机器学习的原型开发会更加快速,更加方便。开发出原型之后,再转换成java, C, python等语言。