大数据技术主要包括:分布式存储,如 hdfs 和 gfs,用于容错性和扩展性。hadoop mapreduce 和 apache spark 等计算框架,用于并行处理海量数据和实时分析。sql 和 nosql 数据库,用于结构化和非结构化数据的查询和管理。etl 工具,用于数据抽取、转换和加载。数据可视化工具,如 tableau 和 power bi,用于探索和展示数据。
大数据典型技术
一、存储技术
- 分布式文件系统(hdfs、GFS):将数据分散存储在多个节点,以提高容错性和扩展性。
- 分布式数据库(hbase、Cassandra):针对大规模非结构化或半结构化数据的查询和管理。
- 云存储(S3、azure Blob Storage):提供弹性、可扩展的存储空间,用于海量数据的存储和归档。
二、计算框架
- hadoop mapreduce:并行处理海量数据的编程模型,适用于批处理任务。
- apache spark:支持实时和批处理的统一分析引擎,提供内存计算、流处理和机器学习功能。
- apache flink:专用于实时流处理的分布式计算框架,具有低延迟和高吞吐量。
三、数据分析技术
四、数据集成和预处理技术
- 数据抽取转换加载(etl):从各种来源提取、转换和加载数据到存储系统中。
- 数据清理:识别和更正数据中的错误和不一致性。
- 数据整合:将来自不同来源的数据组合成一个统一的视图。
五、数据可视化技术
- Tableau:交互式可视化工具,用于探索和展示数据。
- Power BI:微软的商业智能平台,提供数据可视化、仪表板和交互式报告。
- D3.JS:JavaScript可视化库,用于创建自定义交互式数据可视化。