Thứ Ba, 22 tháng 11, 2016

Cài đặt Apache Flume trên Centos

Trong bài trước, đã giới thiệu tổng quan về công cụ thu thập dữ liệu Apache Flume. Bài này sẽ hướng dẫn cách cài đặt và chạy thử ví dụ thu thập dữ liệu tự động từ twitter với Flume. 
Để tải về, có thể vào trang https://flume.apache.org/
Installing Flume
Tải về bản: apache-flume-1.6.0-bin.tar.gz

Sau khi tải về, chuyển file vào thư mục public_folder trên máy. Nếu bạn chưa tạo thư mục trên thì có thể tạo bằng cách:
Sử dụng tài khoản root
[hadoop@localhost sbin]$ su - root
di chuyển tới thư mục /home/
[root@localhost sbin]$ cd /home/
tạo thư mục
[root@localhost sbin]$ mkdir public_folder
cấu hình phân quyền cho thư mục
[root@localhost sbin]$ chmod -R 777 public_folder



chuyển vào thư mục public trên centos (sử dụng tài khoản root)
mv apache-flume-1.6.0-bin.tar.gz /home/public_folder/

Cấu hình Flume
Vào thư mục cài đặt Flume
cd /home/hadoop/Flume/conf/
Đổi tên file
mv flume-conf.properties.template flume-conf.properties
Đổi tên file
mv flume-env.sh.template flume-env.sh

Flume Installation and Streaming Twitter Data Using Flume
 cấu hình app twitter



start hadoop
[hadoop@localhost sbin]$ start-all.sh

tạo thư mục trong hdfs
[hadoop@localhost sbin]$ hdfs dfs -mkdir /user/hadoop/twitter_data\


tạo file config trong thư mục conf
[hadoop@localhost conf]$ vi twitter.conf


Không có nhận xét nào :

Đăng nhận xét