刘莹数据挖掘 数据挖掘作业答案
数据挖掘作业题目 答案 华理计算机专业选修课 第二章: 假定用于分析的数据包含属性 age。数据元组中 age 值如下(按递增序) :13 ,15 ,16 ,16 ,19 ,20 , 20,21 ,22 ,22 ,25 ,25 ,25 ,25 ,30 ,33 ,33 ,35 ,35 ,35,35,36,40,45,46,52, 70.
分别用按箱平均值和边界值平滑对以上数据进行平滑,箱的深度为 3.
使用最小-最大规范化,将 age 值 35 转换到[0.0,1.0]区间 使用 z-Score 规范化转换 age 值 35 ,其中 age 的标准差为 12.94 年。 使用小数定标规范化转换 age 值 35。
画一个宽度为 10 的等宽直斱图。 该数据的均值是什么?中位数是什么? 该数据的众数是什么?讨论数据的峰(即双峰,三峰等) 数据的中列数是什么? (粗略地)找出数据的第一个四分位数(Q1 )和第三个四分位数(Q3 ) 给出数据的五数概括 画出数据的盒图 第三章 假定数据仓库包含三个维:time doctor 和 patient ;两个度量:count 和 charge;其中 charge 是医生对病人 一次诊治的收费。
画出该数据仓库的星型模式图。 由基本方体[day, doctor, patient]开始,为列出 2004 年每位医生的收费总数,应当执行哪些 OLAP 操作。
如果每维有 4 层(包括 all ) ,该立方体包含多少方体(包括基本方体和顶点方体)? 第五章 数据库有 4 个事务。设 min_sup=60%,min_conf=80% TID T100 T200 T300 T400 分别使用 Apriori 和 FP-增长算法找出频繁项集。
列出所有的强关联规则 (带支持度 s 和置信度 c ) 它们不下面的元规则匹配, , 其中, 是代表顼客的变量, X itmei 是表示项的变量(例如:A、B 等) Itmes_bought {K,A,D,B} {D,A,C,E,B} {C,A,B,E} {B,A,D} 下面的相依表会中了超级市场的事务数据。
其中,hot dogs 表示包含热狗的事务,non-hotdogs 表示丌包含 热狗的事务,hamburgers 表示包含汉堡的事务,non-hamburgers 表示丌包含汉堡包的事务。
假定发现关联规则”hot dog => hamburgers”。
给定最小支持度阈值 25% ,最小置信度阈值 50% ,该关联 规则是强的么? 根据给定的数据,买 hot dog 独立亍买 hamburgers 么?如果丌是,二者存在何种“相关”关系? 第六章 设 status 是类标号属性, 给定一个数据元组, 他在属性 department,age 和 salary 的值分别为 “Systems” 26… , “ 30”和“46K…50K” 。
该元组 status 的朴素贝叶斯分类是什么? department Sales Sales Sales Systems Systems Systems Systems Marketing Marketing Secretary Secretary status Senior Junior Junior Junior Senior Junior Senior Senior Junior Senior Junior age 31…35 26…30 31…35 21…25 31…35 26…30 41…45 36…40 31…35 46…50 26…30 salary 46K…50K 26K…30K 31K…35K 46K…50K 66K…70K 46K…50K 66K…70K 46K…50K 41K…45K 36K…40K 26K…30K 给出学生的期中和期末考试成绩。
绘数据图 X 和 Y 看上去有线性关系? 使用最小二乘法,求由学生的期中成绩预测学生的期末成绩的方程式。 预测其中成绩为 86 分的学生的期末成绩。 X(期中考试) Y(期末考试) 72 50 81 74 94 86 59 83 65 33 88 81 84 63 77 78 90 75 49 79 77 52 74 90 第七章 假设数据挖掘的任务是将如下的八个点(用(x,y)代表位置)聚类为三个簇。
A1(2,10) ,A2(2,5) ,A3(8,4) , B1(5,8) ,B2(7,5) ,B3(6,4) C1(1,2) ,C2(4,9)距离函数是欧几里得距离。假设初始我们选择 A1,B1 和 C1 分别为每个簇的中心, 用 k 均值算法给出 在第一轮执行后的三个簇中最后的三个簇