今天给大家带来的是关于Python机器学习的相关知识,文章围绕着Python底层实现KNN展开,文中有非常详细的解释及代码示例,需要的朋友可以参考下
成都创新互联公司专注于企业成都全网营销推广、网站重做改版、克什克腾网站定制设计、自适应品牌网站建设、H5开发、商城开发、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为克什克腾等各大城市提供网站开发制作服务。
借助python自带的pandas库导入数据,很简单。用的数据是下载到本地的红酒集。
代码如下(示例):
import pandas as pd
def read_xlsx(csv_path):
data = pd.read_csv(csv_path)
print(data)
return data
KNN算法中将用到距离,因此归一化是一个重要步骤,可以消除数据的量纲。我用了归一化,消除量纲也可以用标准化,但是作为新手,我觉得归一化比较简单。
其中最大最小值的计算用到了python中的numpy库,pandas导入的数据是DateFrame形式的,np.array()用来将DateFrame形式转化为可以用numpy计算的ndarray形式。
代码如下(示例):
import numpy as np
def MinMaxScaler(data):
col = data.shape[1]
for i in range(0, col-1):
arr = data.iloc[:, i]
arr = np.array(arr) #将DataFrame形式转化为ndarray形式,方便后续用numpy计算
min = np.min(arr)
max = np.max(arr)
arr = (arr-min)/(max-min)
data.iloc[:, i] = arr
return data
先将数据值和标签值分别用x和y划分开,设置随机数种子random_state,若不设置,则每次运行的结果会不相同。test_size表示测试集比例。
def train_test_split(data, test_size=0.2, random_state=None):
col = data.shape[1]
x = data.iloc[:, 0:col-1]
y = data.iloc[:, -1]
x = np.array(x)
y = np.array(y)
# 设置随机种子,当随机种子非空时,将锁定随机数
if random_state:
np.random.seed(random_state)
# 将样本集的索引值进行随机打乱
# permutation随机生成0-len(data)随机序列
shuffle_indexs = np.random.permutation(len(x))
# 提取位于样本集中20%的那个索引值
test_size = int(len(x) * test_size)
# 将随机打乱的20%的索引值赋值给测试索引
test_indexs = shuffle_indexs[:test_size]
# 将随机打乱的80%的索引值赋值给训练索引
train_indexs = shuffle_indexs[test_size:]
# 根据索引提取训练集和测试集
x_train = x[train_indexs]
y_train = y[train_indexs]
x_test = x[test_indexs]
y_test = y[test_indexs]
# 将切分好的数据集返回出去
# print(y_train)
return x_train, x_test, y_train, y_test
此处用到欧氏距离,pow()函数用来计算幂次方。length指属性值数量,在计算最近邻时用到。
def CountDistance(train,test,length):
distance = 0
for x in range(length):
distance += pow(test[x] - train[x], 2)**0.5
return distance
计算测试集中的一条数据和训练集中的每一条数据的距离,选择距离最近的k个,以少数服从多数原则得出标签值。其中argsort返回的是数值从小到大的索引值,为了找到对应的标签值。
tip:用numpy计算众数的方法
import numpy as np
#bincount():统计非负整数的个数,不能统计浮点数
counts = np.bincount(nums)
#返回众数
np.argmax(counts)
少数服从多数原则,计算众数,返回标签值。
def getNeighbor(x_train,test,y_train,k):
distance = []
#测试集的维度
length = x_train.shape[1]
#测试集合所有训练集的距离
for x in range(x_train.shape[0]):
dist = CountDistance(test, x_train[x], length)
distance.append(dist)
distance = np.array(distance)
#排序
distanceSort = distance.argsort()
# distance.sort(key= operator.itemgetter(1))
# print(len(distance))
# print(distanceSort[0])
neighbors =[]
for x in range(k):
labels = y_train[distanceSort[x]]
neighbors.append(labels)
# print(labels)
counts = np.bincount(neighbors)
label = np.argmax(counts)
# print(label)
return label
调用函数时:
getNeighbor(x_train,x_test[0],y_train,3)
用以上KNN算法预测测试集中每一条数据的标签值,存入result数组,将预测结果与真实值比较,计算预测正确的个数与总体个数的比值,即为准确率。
def getAccuracy(x_test,x_train,y_train,y_test):
result = []
k = 3
# arr_label = getNeighbor(x_train, x_test[0], y_train, k)
for x in range(len(x_test)):
arr_label = getNeighbor(x_train, x_test[x], y_train, k)
result.append(arr_label)
correct = 0
for x in range(len(y_test)):
if result[x] == y_test[x]:
correct += 1
# print(correct)
accuracy = (correct / float(len(y_test))) * 100.0
print("Accuracy:", accuracy, "%")
return accuracy
KNN算是机器学习中最简单的算法,实现起来相对简单,到此这篇关于Python机器学习之底层实现KNN的文章就介绍到这了。
当前名称:Python底层实现KNN
文章来源:http://www.shufengxianlan.com/qtweb/news35/520985.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联