BDA(Big Data Analysis)是指对大数据进行分析的过程。在使用BDA软件进行数据分析时,通常会涉及以下几个步骤:
数据分组
作用:根据给定字段进行字段的分组,通常和聚合函数配合使用,实现分组的分析。
写法:`SELECT ... FROM ... GROUP BY 字段名 (也可以是多个字段)`。
数据筛选
作用:对数据按照特定的条件去进行筛选,找到符合条件的数据。
写法:`SELECT ... FROM ... WHERE 条件`。
操作符:
`=`:等于
`>`:大于
`<`:小于
`!=`:不等于
`>=`:大于等于
`<=`:小于等于
`IS NULL`:字段为空值
`IS NOT NULL`:字段不为空值
`IN`:在...之中
`BETWEEN`:在...之间
`LIKE`:类似,近似通配符
数据可视化
作用:通过图表、图像等形式直观地展示数据分析结果,帮助理解和挖掘数据的内在结构。
工具:Andrews Curves 是一种有效的可视化工具,可以用于比较和分析多维数据集之间的相似性和差异性。
数据存储和提取
工具:使用统一存储库(如Arquivos base.py)和定时任务(如timer.py)来管理项目中的数据文件,执行数据提取和存储操作。
执行分析脚本
工具:通过`spark-submit`命令执行Python脚本,进行数据分析和处理。
建议
学习SQL:掌握SQL语言是进行大数据分析的基础,因为很多数据处理和分析任务都可以通过SQL实现。
选择合适的工具:根据具体需求选择合适的数据分析工具和可视化工具,如Pandas、NumPy、Matplotlib、Seaborn等。
实践:通过实际项目来应用所学知识,不断积累经验和提高分析能力。