Use sync.Pool to re-use previously allocated objects Avoid using structures containing pointers as map keys for large maps Code generate marshalling code to avoid runtime reflection Use strings.Builder to build up strings Use…

说明 该文档详细描述使用scala编码word count任务,通过sbt工具构建包,提交spark streaming任务。 实现了几种有代表性的任务.包括从文件系统、HDFS读写,从tcp socket读写, 从kafka读写,实现无状态、有状态、滑动窗口、故障恢复。 测试环境 ssh: root@10.2.35.117 密码 123456 ssh: hadoop@10.2.35.117 密码 123456 spark安装目录 /usr/…

Hadoop集群搭建 说明: 1-4 所有机器都要做 参考 http://dblab.xmu.edu.cn/blog/install-hadoop-cluster/ 1. 系统设置 修改/etc/hostname 需要重启 shutdown -r now 修改/etc/hosts, 追加各个节点hostname 10.2.35.117 xhb-master 10.2.35.118 xhb-slave-1…

spark hdfs 调研目标 调研高可用分布式存储、计算框架,以适应当前和未来可期阶段的部门业务发展。 需求 存储为主 (如:当前simone Record目录下生成的录像文件的存储) 分析 (对上述大量文件进行二次分析) 成熟稳定 (满足日常操作需求) 市面常见方案 NFS、AFS 系统级网络通用文件系统,30年历史了,设计风格和如今有很大差异。常见用途挂载到本机,提供最容易的多用户访问方式,如NAS。 TFS 淘宝分布式文件系统,针对图片类小文件设计,前些年还打广告,github项目已废弃,官网打不开 BFS c++分布式文件系统,百度核心业务的底层存储,为实时业务设计,…