大数据学习资源整合 大数据与机器学习笔记,持续更新中。 文章分类 大数据技术周报 大数据技术周报,每周更新 机器学习 从机器学习谈起 机器学习术语 机器学习路线 推荐两个网站,认清自己的阶段 分布式基础 分布式基础 大数据生态 HDFS MapReduce Hive 深挖底层 Hadoop HA 机制 MR原理和运行过程 NameNode内部解析 二次排序 kafka 解决方案 很多大厂解决方案 日均万亿条数据如何处理?爱奇艺实时计算平台这样做 揭秘微信「看一看」 是如何为你推荐的 技术文章整理 技术文章整理 Spark Spark 调优 Spark shuffle 寻址流程 Spark shuffle 调优 Spark 数据本地化级别 Spark 的核心 RDD 以及 Stage 划分细节,运行模式总结 kafka kafka + sparkstreaming kafka 数据丢失与重复消费 HBase HBase 架构 HBase 架构补充 Hadoop Hadoop HA 原理分析 Hadoop系列之 1.0 和 2.0 架构 Hadoop系列之 Hive Hadoop系列之 Mapreduce Hadoop系列之 HDFS Flink Flink社区电子书 Flink 里程碑版本即将发布,快点入手 重磅福利!《Apache Flink 十大技术难点实战》发布,帮你从容应对生产环境中的技术难题 2020 年 Flink 学习资料整合,建议收藏 数据仓库 离线数仓与实时数仓(一) 58全站用户行为数据仓库建设及实践 干货 | 携程机票数据仓库建设之路 干货 | 携程Hadoop跨机房架构实践 Hive 基础 Hive 数据压缩格式总结 CombineFileInputFormat 文件分片总结 Hive SQL 窗口函数 Hive SQL 分析函数 底层基础 深入理解 MySQL 索引底层原理 缓存击穿、缓存失效及热点key的解决方案 欢迎关注原创公众号 公众号:大数据学习指南 专注大数据数据技术 其他平台,会不定时同步更新。 语雀 知乎 头条号