期末大作业
数据挖掘和基于数据的决策是目前非常重要的研究领域,是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的特殊过程。在商业上,数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析技术,可用于分析企业数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
本次作业要求完成一个相亲配对程序,让相亲者更容易找到自己的意中人。查阅相关文献,以python为工具实现K-近邻算法,从而完成一个基本版的相亲配对系统,在此基础上深入研究聚类算法(K-近邻算法为其中一种),讨论各种聚类思路及算法优劣,完成相应的研究论文。
基本的设计思路提示如下:利用附件datingTestSet.txt文档中提供的三种属性(前三列,其中第1列为对方每年出差/旅行的公里数,第2列为对方玩游戏消耗时间的百分比,第3列为对方每周消费的冷饮公升数)作为测度是否和对方匹配的标准。附件文件第4列表示了你遇到此类人产生的好恶情感,其中largeDoses表示对你极有吸引力,smallDoses表示对你吸引力一般,didntLike表示是你不喜欢的类型。利用此文件提供的数据,以K-近邻算法为工具,进行数据挖掘,发现你的喜好标准,对新的未标定的待匹配方(即只有前三行数据)给出第4行的好恶情感标签(即largeDoses、smallDoses或didntLike)。
具体要求如下:
1.查找文献,理解完整的K-近邻算法;
www.99jianzhu.com/包含内容:建筑图纸、PDF/word/ppt 流程,表格,案例,最新,免费下载,施工方案、工程书籍、建筑论文、合同表格、标准规范、CAD图纸等内容。