博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
白手起家学习数据科学 ——k-Nearest Neighbors之“背后的思想”(九)
阅读量:4056 次
发布时间:2019-05-25

本文共 1908 字,大约阅读时间需要 6 分钟。

设想一下,你正在预测接下来总统选举”我将要选择谁”,如果你不知道关于我的任何信息,一个合乎情理的方法是看我的邻居计划投谁,我们居住在西雅图,我的邻居一定按着计划投给Democratic候选人,这个暗示”Democratic候选人”对我也是个不错的猜想。

设想你知道更多关于我的信息,而不只是地理信息,也许你知道我的年龄、收入、我有几个孩子等等,这些特性扩大了影响我的行为,观察跟我这些特性相似的邻居们做出的选择,来预测我的选择,比观察我的所有邻居要更加靠谱,这个思想就是最近邻分类器(nearest neighbors classification)。

模型(The Model)

最近邻模型是最简单预测模型之一,它没有数学假设,不需要任何排序,只需要一下两点:

* 距离的概念;
* 假设一个点和另外一个临近的点是相似的。

我们在整个章节中所看到的大多数技术都是对覆盖整个数据集上,目的在数据集上学习模型。然而另一方面,最近邻有意识的忽略了很多信息,这是因为,每个新的点预测只依赖离它最近的极少数点。

而且,最近邻模型不可能让你理解你正在观察的现象(特征)为什么驱动模型选择这样一个结果。基于我的邻居的投票来预测我的投票,不会告诉你是什么原因引起我的投票方式。

一般情况,我们有一些数据点并且这些数据点对应着标签,这些标签可能是True或者False,暗示每个输入满足一定条件下为”是垃圾邮件”或者”是有毒的”,或者是一些名目属性标签,像电影的评级(G,PG,PG-13,NC-17)。或者是总统候选人的名字,或者是最喜爱的程序语言。

在我们的例子中,数据点是一些向量,这个意味着我们可以使用距离函数(线性代数篇中有介绍)。

为了做这个,我们需要一个函数计数投票结果:

def raw_majority_vote(labels):    votes = Counter(labels)    winner, _ = votes.most_common(1)[0]    return winner

但是这个没有做任何智能的绑定。例如,设想一下我们正在评级电影,5个电影评级为G,G,PG,PG和R,那么G有2个票数,PG也有2个票数,这种情况下,我们有几个选择:

* 随机选择其中一个;
* 根据距离加权重,选择距离大的为winner;
* 减少k值,直到我们找到唯一的winner。

我们会实现第3种方法:

def majority_vote(labels):    """assumes that labels are ordered from nearest to farthest"""    vote_counts = Counter(labels)    winner, winner_count = vote_counts.most_common(1)[0]    num_winners = len([count                    for count in vote_counts.values()                    if count == winner_count])    if num_winners == 1:        return winner # unique winner, so return it    else:        return majority_vote(labels[:-1]) # try again without the farthest

这个方法很有效,因此,在最坏的情况下,我们一直去掉一个数据点,直到最后只有一个label赢了:

def knn_classify(k, labeled_points, new_point):    """each labeled point should be a pair (point, label)"""    # order the labeled points from nearest to farthest    by_distance = sorted(labeled_points,    # find the labels for the k closest    k_nearest_labels = [label for _, label in by_distance[:k]]    # and let them vote    return majority_vote(k_nearest_labels)

接下来,让我们看如何在实际中应用它。

转载地址:http://qnmci.baihongyu.com/

你可能感兴趣的文章
Mac环境下svn的使用
查看>>
github简单使用教程
查看>>
如何高效利用GitHub
查看>>
环境分支-git版本管理
查看>>
uni-app 全局变量
查看>>
js判断空对象的几种方法
查看>>
java 不用递归写tree
查看>>
springboot2 集成Hibernate JPA 用 声明式事物
查看>>
fhs-framework jetcache 缓存维护之自动清除缓存
查看>>
SpringBoot 动态编译 JAVA class 解决 jar in jar 的依赖问题
查看>>
fhs-framework springboot mybatis 解决表关联查询问题的关键方案-翻译服务
查看>>
ZUUL2 使用场景
查看>>
Spring AOP + Redis + 注解实现redis 分布式锁
查看>>
elastic-job 和springboot 集成干货
查看>>
php开发微服务注册到eureka中(使用sidecar)
查看>>
mybatis mybatis plus mybatis jpa hibernate spring data jpa比较
查看>>
支付宝生活号服务号 用户信息获取 oauth2 登录对接 springboot java
查看>>
CodeForces #196(Div. 2) 337D Book of Evil (树形dp)
查看>>
uva 12260 - Free Goodies (dp,贪心 | 好题)
查看>>
uva-1427 Parade (单调队列优化dp)
查看>>