主办单位: | 泰迪杯数据挖掘挑战赛组委会 |
承办单位: | 广东泰迪智能科技股份有限公司 |
协办单位: | 人民邮电出版社有限公司 |
北京泰迪云智信息技术研究院 |
互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。目前各院校的大数据专业教师匮乏、相关落地动手实战应用能力欠缺、授课过程中相关行业实战案例项目缺失等,为加快建设大数据专业教师队伍,推动各院校建立大数据人才培训体系和评价体系,特推出全国高校大数据与人工智能师资研修班,每年在全国范围内滚动开展八期,截止目前已在全国巡回举办40余场,参训教师近5000人次。2021年第三期全国高校大数据开发技术应用研修班采用线上以云课堂形式举办,现将有关详细安排通知如下:
一、课程介绍
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,
面对海量的数据,现有的硬件很难支持对其及进行存储并对这些存在时效性的数据及进行处理。为了解决这一问题,诞生了大数据各个组件。基于存储问题,以分布式为核心思想进行扩展,诞生了Hadoop,完成了对海量数据的存储和处理,自此之后不断的在Hadoop基础上进行延申出现了Hive、HBase等大数据分布式数据库,同时也出现了Flume,Kafka等对实时数据进行获取。除了延申之外也出现很多更为优秀的替代方案,Spark就是对于Hadoop中MapReduce基础上有了更为高效的计算能力。
本次培训采用"云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导"结合的方式,包含前置基础课程学习阶段和核心课程学习阶段,讲解各大数据组件的应用和项目代码实践,梳理技术框架。
二、课程特色
1、通过学习本次课程,可以完整地学习Hadoop大数据基础、Hive大数据仓库、Zookeeper分布式服务框架、HBase非关系型数据库等主要技术,也可以培养计算思维、数据思维及采用程序设计方法解决计算问题的实战能力。
2、本课程配套有基础知识内容,可使零基础学员快速入门,带领学员迅速掌握Linux操作系统基础、Java编程基础,了解大数据开发的基本概念及相关实现,全面掌握Hadoop的架构原理和使用场景,深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立安装及使用Hadoop环境,全面掌握Spark数据挖掘技能和Hadoop开发技能,使用相关技能实现算法。
3、核心课程部分由讲师手把手一起进行实操演练,在具体应用场景中全面掌握相关技能,助力实训教学工作、实际动手的能力。内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解具体应用,全面解析专业必备技能,为相关课程开设和备课、应对科研和项目开发打下坚实基础。
4、全面实践大数据开发分析流程,注重案例实战,提供在线答疑等服务,助力夯实理论基础,掌握核心技术,全面提升专业授课能力。
5、培训期间助教全程辅助教学,每天提供10小时的实时在线答疑辅导,并进行答疑文档汇总,更好地总结学习。
6、无论是前置学习篇还是案例集训篇,相关代码、源数据、PPT、案例素材全部提供下载,即学即用,教学更轻松!视频内容支持六个月内免费回看,以便复习和参考。
7、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。
三、课程大纲
基础篇(报名成功后即可开始学习) | ||
时间 | 课程内容 | 学习平台 |
正式培训前 | Linux操作系统基础 1 Linux简介 1.1 Linux简介与发展历程 1.2 Linux常见版本 2 Linux基本命令 2.1 Linux文件系统树 2.2 创建与删除目录或文件 2.3 查看文件内容 2.4 创建硬连接和符号链接 2.5 帮助命令 2.6 重定向相关命令 2.7 用户及用户组 2.8 权限相关命令 2.9 用户、用户组及权限实践操作进程 3 Linux Vi编辑器 3.1 模式介绍与常见快捷命令 3.2 一般模式快捷键 3.3 编辑模式与指令模式快捷键 | 泰迪云课堂 |
Java编程基础 1 基础知识 1.1 Java简介 1.2 Java安装配置 1.3 Java基础语法 1.4.1 Java基本数据类型&引用数据类型 1.4.2 Java变量 1.5 Java String类 1.6.1 Java运算符-赋值运算符&算术运算符 1.6.2 Java运算符-关系、逻辑、其他运算符 1.7 循环、条件、循环中断 1.8 Java数组 1.9 Java函数 1.10.1 Java集合简介 1.10.2 Java集合之List 1.10.3 Java集合之Set 1.10.4 Java集合之Map 1.11 Java泛型 2 面向对象 2.1 Java类、对象 2.2.1 Java类对象 2.2.2 Java构造函数 2.2.3 Java类继承 2.2.4 Java类多态 2.3.1 Java抽象类 2.3.2 Java接口 3 线程及异常处理 3.1 Java多线程 3.2 Java包、异常 | ||
核心课程篇 | ||
时间 | 课程内容 | 学习平台 |
第一课 Hadoop大数据基础 | ||
5月21日 18:30 - 22:00 | 1 Hadoop介绍 1.1 认识大数据 1.2 Hadoop核心组件 1.3 Hadoop特性与生态环境 1.4 Hadoop应用场景 2 Hadoop集群安装与部署 2.1 安装虚拟机 2.2 安装Java 2.3 Hadoop集群部署模式 2.4 配置固定IP 2.5 配置ssh无密码登录 2.6 Hadoop集群安装与部署 2.7 Hadoop配置参数介绍 2.8 Hadoop集群启动与监控界面介绍 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
5月22日 18:30 - 22:00 | 3 Hadoop基础操作 3.1 Hadoop安全模式 3.2 Hadoop集群基本信息 3.3 HDFS常用Shell操作 3.4 MapReduce常用Shell操作 3.5 MapReduce任务管理 3.6 YARN资源管理及调度策略 4 MapReduce开发入门 4.1 MapReduce框架与设计构思 4.2 MapReduce开发环境搭建 4.3 MapReduce单词计数源码解析 4.4 MapReduce API介绍 4.5 MapReduce Java开发实战:按日期统计访问次数 4.6 MapReduce Java开发实战:用户访问次数排序 5 MapReduce编程进阶 5.1 MapReduce输出文件格式介绍及序列化文件生成 5.2 MapReduce输入文件格式介绍及读取序列化文件 5.3 MapReduce程序优化:Combiner&Partitioner应用 5.4 提交MapReduce程序 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第二课 Hive大数据仓库 | ||
5月23日 18:30 - 22:00 | 1 Hive概述 1.1 Hive的产生背景 1.2 Hive体系架构 1.3 数据类型 1.4 与传统数据库的区别 1.5 Hive的应用 2 Hive安装配置 2.1 安装MySQL 2.2 安装Hive 3 Hive表定义 3.1 Hive创建内表和外表 3.2 Hive创建静态分区表 3.3 Hive创建动态分区表 3.4 创建带有数据的表 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
5月24日 18:30 - 22:00 | 4 Hive导入导出数据 4.1 Hive导入本地或者HDFS上的数据 4.2 Hive单表查询和多表查询导入数据 4.3 Hive导出数据 5 Hive查询 5.1 Hive查询语法及distinct操作 5.2 Hive order by和内置函数查询 5.3 Hive group by查询 5.4 Hive join查询 5.5 Hive子查询和case when查询 6 函数 6.1 Hive内置函数 6.2 Hive自定义函数 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第三课 Zookeeper分布式服务框架 | ||
5月25日 18:30 - 22:00 | 1 Zookeeper概述 2 Zookeeper组成 3 Zookeeper分布式安装 4 Zookeeper CLI基本命令 4.1 znode创建与查看 4.2 监视器设置与数据修改 4.3 查看与删除节点 4.4 权限设置与查看 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第四课 HBase非关系型数据库 | ||
5月26日 18: 30 - 22:00 | 1 HBase简介 1.1 认识HBase 1.2 HBase使用场景 2 HBase安装配置 2.1 HBase集群拓扑简介 2.2 Zookeeper集群安装配置 2.3 HBase安装配置 2.4 HBase监控界面讲解 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
5月27日 18:30 - 22:00 | 3 HBase架构原理 3.1 HBase数据模型 3.2 HBase架构 3.3 HBase读写流程 4 HBase Shell基本操作 4.1 命令空间操作 4.2 创建表 4.3 修改和删除表 4.4 插入数据到表中 4.5 查看表数据 4.6 删除表数据 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
5月28日 18:30 - 22:00 | 5 HBase表的模式设计 5.1 HBase表设计 6 HBase Java API应用 6.1 搭建HBase开发环境 6.2 建立HBase数据库连接实例 6.3 创建或删除表应用实例 6.4 设置Region分割点应用实例 6.5 修改表结构应用实例 6.6 写入数据应用实例 6.7 查看一行数据应用实例 6.8 扫描表数据应用实例 6.9 删除数据应用实例 6.10 创建职工信息表emp 6.11 写入数据到职工信息表 6.12 查找指定范围职工信息 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第五课 综合实战:使用KNN实现鸢尾花分类 | ||
5月29日 18:30 - 22:00 | 1 案例背景介绍 2 KNN算法讲解 3 KNN分类思路讲解 4 MapReduce代码讲解 4.1 标签距离计算 4.2 MapReduce Driver类讲解 4.3 MapReduce Mapper类讲解 4.4 MapReduce Reduce类讲解 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第六课 综合实战:航空客户乘机数据预处理 | ||
5月30日 18:00 - 22:00 | 1 数据抽取 1.1 从航空公司数据源中抽取两年数据 2 数据加载 2.1 在Hive中新建表:将数据导入Hive数据仓库 3 数据预处理 3.1 丢弃票价为空的记录 3.2 丢弃平均折扣率为0.0的记录 3.3 丢弃票价为0、平均折扣率不为0、总飞行公里数大于0的记录 3.4 选择与LRFMC指标相关的6各属性:FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END 3.5 构建LRFMC指标 3.6 数据标准化 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第七课 在线考试 | ||
5月31日 19:00 - 21:00 | 高级大数据技术应用职业技术在线考试 | 泰迪云课堂 |
四、证书颁发
学员经在线培训并考试合格后,可以获得本期培训对应专题职业技术证书。
五、课程主讲师资介绍
樊老师 广东泰迪智能科技股份有限公司特聘讲师,某国际银行大数据开发工程师,Hortonworks授权Apache Hadoop开发者认证培训讲师,Hadoop、Mahout技术实践者和研究者;对Hadoop的MapReduce编程模型有深刻理解,同时对Mahout技术有较深认识和理解,对Mahout源码有深入研究,擅于Mahout中数据挖掘的K均值聚类算法、贝叶斯分类算法、FP树关联规则算法的应用;主编《Mahout算法解析与案例实战》、《Hadoop数据分析与挖掘实战》、《Hadoop与大数据挖掘》等图书专著;具有电信行业和银行也得项目经验和行业知识,主持中国电科院电力大数据平台、电能量数据挖掘与智能分析、客户服务智能分析系统等项目。 | |
郑素铃 广东泰迪智能科技股份有限公司大数据研发工程师、大数据讲师。从事大数据项目研发工作,对Hadoop大数据技术有较深的研究,熟练掌握Hadoop环境部署和Hadoop核心计算框架MapReduce的原理和应用。掌握Spark原理及编程,熟悉使用Spark的图计算Graphx和算法库MLlib。对非结构化数据库HBase以及结构化数据库Hive有深刻的了解。掌握数据挖掘和机器学习的常用算法,熟悉数据挖掘流程,具备项目开发经验,如"数睿思网站用户画像研究"和"法律服务智能推荐系统"项目,在推荐系统方面比较有研究。先后参与了《Hadoop大数据开发基础》、《Spark大数据技术与应用》等图书编写工作。负责过韩山师范学院、西安铁路职业技术学院等高校和教师的大数据培训课程。 | |
焦正升 广东泰迪智能科技股份有限公司资深项目研发工程师、高级信息系统项目经理、高级软件开发工程师,拥有7年相关从业经验;致力于信息技术的应用与传播,信息系统产业的发展。精通JAVA编程语言,熟悉Spring Boot、Spring Cloud等主流开发框架、MySQL数据库、VUE数据驱动渐进式框架等主流技术。参与《Hadoop与大数据挖掘》、《Hadoop大数据分析与挖掘实战》等图书的编写。拥有电力、电子政务、轻工环保、交通运输等多项领域的项目管理研发经验,项目团队为北京市信访办研发的"大数据助力智慧信访"系统获得第七届金铃奖-公共服务类"智能决策奖"。 |
六、报名须知与联系方式
1、本次培训共计11天(2021年5月21日 - 31日)共88课时,培训费用2980元,包含报名费、学习费、资料费、证书费等。
2、报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求:白色背景底,14-20K大小的.JPG格式)。
3、本次由广东泰迪智能科技股份有限公司收取费用并开具发票。
七、报名联系方式
联系人:曾老师
电话:13246821827
微信:antonia602501
邮箱:zengaizhi@tipdm.com