Thứ Ba, 29 tháng 11, 2016

Hướng dẫn cài đặt Hive trong Centos

Trong bài trước đã giới thiệu tổng quan về một số công cụ phân tích dữ liệu trong hệ sinh thai hadoop. Bài này sẽ hướng dẫn cài dặt Apache Hive trong môi trường CentOS/RHEL.
Kết quả hình ảnh cho apache hive centos 


Bước 1: Cài đặt JAVA và Hadoop

Apache Hive yêu cầu máy phải cài đặt JAVA 6 trở lên. Không phải tùy chọn nhưng bạn nên cài Hadoop trước khi cài Hive, vì Hive được xây dựng dựa trên môi trường Hadoop
Để cài đặt Hadoop trong CentOS/RHEL 6

Bước 2: Tải về Hive Archive

Sau khi cấu hình thành công Hadoop trên máy, hãy tải về bộ cài đặt hive (phiên bản mới nhất của hive lúc này là 2.1.0) có thể sử dụng user hadoop để chạy các lệnh dưới đây

# cd /home/hadoop
# wget http://mirrors.viethosting.vn/apache/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
# tar xzf hive-2.1.0-bin.tar.gz
# mv hive-2.1.0-bin hive_2_1
# chown -R hadoop hive_2_1

Bước 3: Cấu hình môi trường

Sử dụng tài khoản root, cập nhật file cấu hình tại /etc/profile.d/truongpm.sh

#su - root

#vi /etc/profile.d/truongpm.sh

và thêm vào nội dung sau.

export HIVE_HOME=/home/hadoop/hive_2_1

export PATH=$HIVE_HOME/bin:$PATH

Cuối cùng sử dụng lệnh source /etc/profile.d/truongpm.sh để sử dụng cấu hình mới

Bước 4: Chạy Hive

Trước khi chạy Hive, bạn phải tạo các thư mục /tmp/user/hive/warehouse trong hdfs và cấu hình quyền của chúng là  chmod g+w. Sử dụng user hadoop và chạy lệnh

$ cd $HADOOP_HOME/
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Tiếp theo chay hive bằng lệnh.

$ cd $HIVE_HOME

$ bin/hive

Logging initialized using configuration in jar:file:/opt/hadoop/hive/lib/hive-common-0.12.0.jar!/hive-log4j.properties
hive>

Nếu gặp lỗi: “Hive metastore database is not initialized” là do thư mục metastore_db đã được sinh ra, để sửa lỗi này, bạn chạy các lệnh sau:

[hadoop@localhost hive_2_1]$ mv metastore_db metastore_db.temp

[hadoop@localhost hive_2_1]$ schematool -initSchema -dbType derby

Sau đó khởi động lại hive bằng lệnh

$ bin/hive

Nếu terminator thể hiện hive> tức là bạn đã thành công

Bước 5: Kiểm tra một số chức năng trong hive

Tạo một bảng trong hive

hive>  CREATE TABLE demo1 (id int, name string);
OK
Time taken: 6.565 seconds

Hiển thị danh mục bảng có trong hive.

hive> SHOW TABLES;
OK
demo1
Time taken: 0.231 seconds, Fetched: 1 row(s)

Xóa một bảng trong hive

hive> DROP TABLE demo1;
OK
Time taken: 2.393 seconds

Tại đây, chúng ta đã thành công khi cài đặt và cấu hình hive với Centos. Trong bài tiếp theo, tôi sẽ sử dụng hive phân tích một case studies cụ thể

Không có nhận xét nào :

Đăng nhận xét