基于Flink的音乐专辑数据分析展示_无前后端
舟率率 6/5/2025 pythonscala
原地址:https://dblab.xmu.edu.cn/blog/2989/
# 项目概况
# 数据类型
音乐专辑数据
# 开发环境
centos7
# 软件版本
python3.8.18、hadoop3.2.0、flink1.14.6、jdk8、scala2.12.18
# 开发语言
python
# 开发流程
数据上传(hdfs)->数据分析(flink)->静态可视化(pyecharts)
# 可视化图表
# 操作步骤
# 启动Hadoop
# 离开安全模式: hdfs dfsadmin -safemode leave
# 启动hadoop
bash /export/software/hadoop-3.2.0/sbin/start-hadoop.sh
1
2
3
4
5
2
3
4
5
# 数据集上传
# 创建目录
mkdir -p /data/jobs/project/
# 进入目录
cd /data/jobs/project/
# 上传 albums.csv 到 /data/jobs/project/ 目录下
# 查看前面5条记录
head -5 albums.csv
1
2
3
4
5
6
7
8
9
10
11
2
3
4
5
6
7
8
9
10
11
# 数据上传hdfs
cd /data/jobs/project/
# 上传到hdfs
hdfs dfs -mkdir -p /data/input/
hdfs dfs -rm -r /data/input/*
hdfs dfs -put albums.csv /data/input/
hdfs dfs -ls /data/input/
1
2
3
4
5
6
7
8
9
2
3
4
5
6
7
8
9
# flink数据分析
cd /data/jobs/project/
# 上传 project-flink-music-data-analysis-jar-with-dependencies.jar 到 /data/jobs/project/ 目录下
java -cp project-flink-music-data-analysis-jar-with-dependencies.jar com.dblab.DownLoad --input hdfs://master:9000/data/input/ --output data/
1
2
3
4
5
6
2
3
4
5
6
# 生成静态可视化网页
# 下载 flink生成的 "data" 目录 到 "MusicAnalysis" 目录下
python3 main.py
1
2
3
4
2
3
4