使用K近邻算法诊断乳腺癌
赵宇
摘 要:随着信息技术的不断发展,医疗大数据的概念也逐渐被人类所熟知。通过对数据挖掘技术在乳腺癌各领域的研究现状(乳腺癌基因研究、乳腺癌早期辅助检查、力学药物靶点识别、乳腺癌新中医治疗方法)的分析,展望数据挖掘技术应用于乳腺癌领域的前景,为数据挖掘技术在乳腺癌疾病的研究提供新思路。
关键词:数据挖掘;乳腺癌
一、前言
乳腺癌已成为当前社会的重大公共卫生问题。全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。
二、数据源
我们将使用来自uci的乳腺癌诊断数据集,该乳腺癌数据包括569例乳腺细胞活检样本,每个样本包含32个变量。其中id变量是样本识别id,diagnosis变量是目标变量(m代表恶性,b代表良性)。其他30个变量都是由10个数字化细胞核的10个不同特征的均值、标准差和最大值构成。这10个基本特征为:
三、数据探索和预处理
.3.1 ?数据的探索
首先,搜集数据集如下图所示,由于数量问题,只显示其中部分,共计569个样本,32个变量。
将整个数据集导入spss软件中。
第一个变量为id,无法为实际的模型构建提供有用的信息,所以需要将其删除。diagnosis变量是我们的目标变量,我们首先统计一下其取值分布。观察在我们的数据集中,恶性(m)和良性样本(b)的分布情况。在正式建模之前需要将其进行整数编码,将良性(b)编码为0,将恶性(m)编码为1。
通过统计我们的569个样本中,良性样本(b)和陰性样本分别有212个,占比分别为62.7%和37.3%。其中作为示例,我们主要选取所有变量中的三个:radius_mean,area_mean和smoothness_mean。
通过spss软件生成图形对三个变量进行分析:观察这三个变量的统计信息,发现它们的取值范围不大一致。radius_mean取值范围为6.981~28.110,area_mean取值范围为143.5~2501.0,smoothness_mean取值范围为0.05263~0.16340。不同变量的测量尺度不一致会影响k近邻算法中的样本距离计算。例如,如果上述三个变量直接参与距离计算,则area_mean变量将会对距离计算影响最大,从而会导致我们构建的分类模型过分依赖于area_mean变量。在应用k近邻等涉及距离计算的算法构建预测模型之前,需要对变量取值进行标准化。常见的标准化方法有min-max标准化和z-score标准化等。
3.2数据的标准化:
为了将自变量进行min-max标准化,使用min_max_normalize函数。该函数输入为数值型向量x,对于x中的每一个取值,减去x的最小值,再除以x中数值的取值范围。结果如下可见所有的变量都已经正确地标准化到0和1之间:
四、模型性能提升
4.1 测试不同k取值对模型效果的影响
我们将分别测试 k = 1,5,9,11时模型的效果。由于模型整体预测准确率已经很高。我们通过观察假阴性(false negative)和假阳性(false positive)的数目和正确率(accuracy)来对比不同k取值下模型的效果。
可见,当 k = 5 时,假阳性数量最少,且假阴性数量仅为1,正确率达到最高。当然,这也只是在171个测试样本上的结果。
参考文献
[1]mouradc,lopezma g.an evaluation of imagede ors combined with clinical data for breast cancer diagnosis [j].intemational joumal of computer assisted radiology and surgery,2013,8(4):561-57.
[2]张旭东,孙圣力,王洪超.基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法[j].大数据,2019,5(01):68-76.
[3]侯公楷.中医药防治乳腺癌进展[j].辽宁中医药大学学报,2016,18(05):249-253.
(作者单位:河北大学 生命科学学院)
使用K近邻算法诊断乳腺癌
本文2022-11-02 10:44:17发表“毕业论文”栏目。
本文链接:https://www.wenmi123.com/article/384895.html