基于Flink的音乐专辑数据分析展示_无前后端

6/5/2025 pythonscala

原地址:https://dblab.xmu.edu.cn/blog/2989/

可视化效果视频 (opens new window)

# 项目概况

master (opens new window)

# 数据类型

音乐专辑数据

# 开发环境

centos7

# 软件版本

python3.8.18、hadoop3.2.0、flink1.14.6、jdk8、scala2.12.18

# 开发语言

python

# 开发流程

数据上传(hdfs)->数据分析(flink)->静态可视化(pyecharts)

# 可视化图表

2025-06-07_224614

2025-06-07_224620

2025-06-07_224624

2025-06-07_224629

2025-06-07_224634

# 操作步骤

# 启动Hadoop


# 离开安全模式: hdfs dfsadmin -safemode leave
# 启动hadoop
bash /export/software/hadoop-3.2.0/sbin/start-hadoop.sh

1
2
3
4
5

# 数据集上传


# 创建目录
mkdir -p /data/jobs/project/
# 进入目录
cd /data/jobs/project/

# 上传 albums.csv 到 /data/jobs/project/ 目录下

# 查看前面5条记录
head -5 albums.csv

1
2
3
4
5
6
7
8
9
10
11

# 数据上传hdfs


cd /data/jobs/project/
# 上传到hdfs
hdfs dfs -mkdir -p /data/input/
hdfs dfs -rm -r /data/input/*
hdfs dfs -put albums.csv /data/input/

hdfs dfs -ls /data/input/

1
2
3
4
5
6
7
8
9

# flink数据分析


cd /data/jobs/project/

# 上传 project-flink-music-data-analysis-jar-with-dependencies.jar 到 /data/jobs/project/ 目录下
java -cp project-flink-music-data-analysis-jar-with-dependencies.jar com.dblab.DownLoad --input hdfs://master:9000/data/input/ --output data/

1
2
3
4
5
6

# 生成静态可视化网页


# 下载 flink生成的 "data" 目录 到 "MusicAnalysis" 目录下
python3 main.py

1
2
3
4
Last Updated: 7/4/2025, 1:59:06 PM