详情

基于Apache Spark的高校大数据可视化分析与研究

申报人:周晨 申报日期:2021-12-10

基本情况

2022校院级项目管理
基于Apache Spark的高校大数据可视化分析与研究 学生申报
创新训练项目
工学
计算机类
学生自主选题
一年期
本项目是基于Apache下的Spark平台的研究,针对高校学生的基本信息、课程情况、学习情况进行的数据分析与数据可视化展现。主要运用了Scala和Java语言进行数据的清洗、降噪和分析,运用DataFrame和RDD算子等关键技术对数据分析研究,数据的分析结果将保存在Hadoop平台下的Hive数据库和本机的MySQL数据库下,可视化将运用Python语言和Echarts相结合调用数据进行展现。
负责人周晨曾获计算机软件著作权一项,发表省级期刊一篇,新型实用专利四项;曾获国家级、省级专业比赛三等奖和二等奖;多次参与大学生创新创业项目,实验室各类项目等。
指导老师王兰英,硕士,副研究员,计算机学院学生管理负责人,多次参与省部级教改、科研项目建设,主持校级重点教改项目,发表核心论文和其他论文10篇,指导学生创业项目和创业竞赛多项。带领本项目团队成员进行总体设计和协调,指导入驻孵化基地的各种实践活动。
对本项目进行指导,监督,督促本小组成员在规定时间内完成既定任务。
对本项目提出合理的方案和建议,使本项目更具有丰富性,可靠性和相关性。
院级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
周晨 计算机科学与工程学院(软件学院) 计算机科学与技术(升本) 2019 团队运营,技术方向,规划指导
李雨星 法商学院 财务管理(本科) 2020 财务处理
刘倩怡 计算机科学与工程学院(软件学院) 网络空间安全(本科) 2020 技术报告

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
王兰英 计算机科学与工程学院(软件学院)
牛明秀 计算机科学与工程学院(软件学院)

立项依据

研究目的:

基于Apache技术下Spark平台,运用scala语言分析学生的数据分布,了解新生的基本信息的分布,分析得出其中的关联性、趋向性;分析得出各级学生课程和成绩之间的联系性与趋向。并用pythonecharts结合的技术可视化展现出来。

1.高校学生基本信息的分布相关研究。

2.高校学生学情的相关性研究。

目前,各大高校都对新生的数据进行获取和分析研究,都推出了新生大数据,但大多数都是以文字+图表的形式展现出来,而且对于各个课程的学情分析和各个年级的课程,分析对比都是以传统的图表和文字方式进行展现。同时,也有高校将此研究与大数据相结合,推出大数据下的学情分析和新生大数据的分析。

未来更多分析将会以大数据的形式更准确,更实时展现出来我们可以通过大数据技术和可视化技术更清晰,更及时的了解到我们所研究的内容。

创新点:摒弃了传统的图表方式,以目前的新兴技术大数据技术和可视化技术对已有的数据进行分析和研究。运用了ApacheSpark平台,通过大数据独有的算法和技术特点,dateframerdd算子可以更准确、更迅速地分析出数据之间的相关性。可视化技术运用Pythonecharts相结合对数据进行效果展现。

项目特色:可视化界面可以清晰、迅速、实时展现各个年级之间的学情对比、相同年级之间的对比、新生的数据异同与分布情况。可以通过此技术研究出教学情况、课程情况以及新生的分布情况。

技术路线:数据初步分析、可视化界面初步编排构思、spark平台下进行数据清洗、运用算子数据分析、分析结果数据、echarts技术数据导入、编写可视化界面。

拟解决的问题:数据的降噪分箱处理、scala语言数据完整分析、pythonecharts相结合形成可视化界面并轮播。

预期成果:可以通过可视化界面了解到新生大数据和学情分析等数据研究情况。

202112-20221月:阅读相关资料,对数据初步分析,对已有数据的各项分布有深入了解,并尝试提出研究的重点。

20222-20223月:对数据进行降噪清洗,运用spark平台对数据分析,结合理论研究,进行全面分析,运用可视化技术对数据进行编排展现。编写各项报告完成中期检查。

20224-20225月:申请1-2个软件著作权,编写结题报告完成结题等各项工作。

20225-20226月:整理数据资料,编写结题报告。


阅读相关文献数篇,了解其他高校对此类项目的研究。

初步对已有数据进行了解和初步分析。

先前有对其他项目的研究经验和整个流程的了解。

已具备:阅读相关文件数篇;了解其他高校对此类项目的研究;初步对已经有的数据进行了解和初步分析。

缺少的条件:对更多大数据技术的了解,对可视化技术的深入研究和熟练掌握。

解决方法:结合现有的知识阅读更多技术文献对已有的研究成果进行调研,总结规律,寻找共性和个性。请教老师学习多种分析方法,找出最恰当合适的分析方法应用到本项目的研究中。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 3000.00 项目运营 1600.00 1400.00
1. 业务费 1800.00 1000.00 800.00
(1)计算、分析、测试费 0.00 0.00 0.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 400.00 团队成员调研技术 400.00 0.00
(4)文献检索费 1400.00 软著申请 600.00 800.00
(5)论文出版费 0.00 0.00 0.00
2. 仪器设备购置费 1000.00 500.00 500.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 200.00 打印材料 购买书籍 100.00 100.00
结束