【开题答辩全过程】以 基于Spark的电影推荐系统设计与实现为例,包含答辩的问题和答案
本文展示了一个基于Spark的电影推荐系统毕业设计案例,涵盖技术实现方案和答辩问答。系统采用"爬虫+Spark+MySQL+SpringBoot+Vue"技术栈,使用Spark MLlib的ALS算法实现个性化推荐,并解决了冷启动问题。答辩过程详细记录了评委关于技术选型(Spark vs scikit-learn)、系统架构、数据存储和效果评估等关键问题的专业问答,体现了学生对
个人简介
一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持!

各位老师好,我是 19 级大数据 2 班的 xx 同学。我的题目是“基于 Spark 的电影推荐系统”。系统用 Python 爬取豆瓣电影数据,经 Spark 分布式清洗后存入 MySQL;后台用 SpringBoot 提供接口,前台用 Vue+ECharts 做可视化。核心模块分三块:热门影片排行、近期上映提醒、个性化推荐。推荐端采用 Spark MLlib 的 ALS 协同过滤算法,每分钟增量训练,实时刷新“猜你喜欢”。整个技术栈就是“爬虫 + Spark + MySQL + SpringBoot + Vue”,跑在 3 节点伪分布式环境,后续会补充离线评估与 A/B 测试。下面请各位老师批评指正。
评委老师:为什么选择 Spark 而不是直接用 Python 的 scikit-learn 做推荐?
答辩学生:scikit-learn 是单机版,10 万条以上评分数据我的笔记本就跑不动了;Spark 把 ALS 算法做成了分布式,3 台旧电脑拼一起 2 分钟就能跑完 600 万条评分,后期扩容也方便,所以选 Spark。
评委老师:系统冷启动问题怎么解决?新用户没有评分怎么办?
答辩学生:前 3 分钟让新用户选 5 个喜欢类型,我用类型均分做临时画像,先推热门里对应类型的片子;等他产生 10 条真实评分后再切换回 ALS 个性化模型,基本能覆盖冷启动。
评委老师:数据存在哪里?表结构怎么设计的?
答辩学生:用 MySQL,最简单两张表:movie 表存 id、片名、类型、平均分;rating 表存 userId、movieId、score、timestamp。推荐结果再写一张 recommend 表,主键用户 id,字段是逗号分隔的 Top10 电影 id,前端直接读。
评委老师:怎么评价推荐效果?准备看什么指标?
答辩学生:先离线看 RMSE,目标把评分预测误差压到 0.9 分以内;再上线做 7 天 A/B 测试,对比“推热门”和“ALS 推荐”的日均点击率,只要提升 5% 以上就算达标。
评委老师:计划 2025 年 5 月才答辩,现在进度到哪一步?
答辩学生:爬虫和 Spark 清洗已跑通,MySQL 里已有 8 万部电影、600 万条评分;ALS 模型离线 RMSE 0.88,Vue 前台刚搭好首页,下一步把接口联调完就做在线测试。
评委老师评价:
xx 同学选题贴近实际,技术路线清晰,对冷启动、效果评估等关键问题有具体对策,进度也符合 2025 年时间表。后续注意补充实验对比图和量化结果,继续完善前端交互,按计划推进即可。
以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取




最后
有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。
更多推荐

所有评论(0)