您好,欢迎来到微智科技网。
搜索
您的当前位置:首页Sqoop面试题

Sqoop面试题

来源:微智科技网
Sqoop⾯试题

⽬录

1 sqoop介绍

sqoop是apache旗下⼀款**“Hadoop和关系数据库服务器之间传送数据”**的⼯具。导⼊数据:MySQL,Oracle导⼊数据到Hadoop的HDFS HIVE HBASE等数据存储系统;**导出数据:**从Hadoop的⽂件系统中导出数据到关系数据库mysql等将导⼊或导出命令翻译成mapreduce程序来实现

在翻译出的mapreduce中主要是对inputformat和outputformat进⾏定制

2 sqoop常见问题

2.1 sqoop中⽂数据乱码问题

mysql导⼊到hdfs

bin/sqoop import \\

--connect jdbc:mysql://node03:3306/A \\--username root \\--password 123456 \\--target-dir /A2 \\--table B --m 1

mysql导⼊到hive

bin/sqoop import \\

--connect \"jdbc:mysql://node03:3306/A?useUnicode=true&characterEncoding=utf-8\" \\--username root \\--password 123456 \\--table B \\--hive-import \\--m 1 \\

--hive-database default;

从hdfs导出到mysql

bin/sqoop export \\

--connect \"jdbc:mysql://node03:3306/A?useUnicode=true&characterEncoding=utf-8\" \\--username root \\--password 123456 \\--table B \\

--export-dir /user/hive/warehouse/b

2.2 sqoop中⽂数据乱码问题

参考资料:https://www.cnblogs.com/qingyunzong/p/8724155.html

2.3 datax常见问题

1. oom

在datax 中导数据使⽤过程中往往会因为,⽬标数据过⼤导致datax oom,那么可以调⼤datax的jvm参数来防⽌oom,在python命令后,使⽤ -jvm=”-Xms5G -Xmx 5G”来调⼤python datax.py --jvm=\"-Xms5G -Xmx5G\" ../job/test.json

2. 字段长度过长

如果报java.io.IOException: Maximum column length of 100,000 exceeded in column...异常信息,说明数据源column字段长度超过了100000字符。需要在json的reader⾥增加如下配置 \"csvReaderConfig\":{ \"safetySwitch\": false,

\"skipEmptyRecords\": false, \"useTextQualifier\": false }

safetySwitch = false;//单列长度不100000字符

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务