Hiển thị các bài đăng có nhãn ApacheFlume. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn ApacheFlume. Hiển thị tất cả bài đăng

Thứ Tư, 30 tháng 11, 2016

Hive đọc dữ liệu từ HDFS


Trong bài trước đã hướng dẫn sử dụng Hive phân tích dữ liệu chứng khoán. Trong ví dụ đó, tôi sử dụng lệnh “load data local inpath” để đưa dữ liệu từ thư mục lưu trữ trên máy local vào tảng dữ liệu đã được tạo sẵn trong hive. Lệnh trên cũng đồng thời tạo thư mục NYSE trong workspace của Hive trên HDFS. Với lệnh trên, tôi phân vân rằng liệu với dữ liệu streaming (sử dụng Apache Flume liên tục đẩy dữ liệu vào HDFS) thì làm thế nào để Hive có thể đọc được (dữ liệu mới được tự động đẩy vào Hive table để phân tích). Rất may Hive đã làm cho tôi việc này. Để hiểu rõ hơn cơ chế đọc dữ liệu của Hive, tôi đã test một trường hợp sau:
 Kết quả hình ảnh cho hive hdfs

Thứ Bảy, 26 tháng 11, 2016

Tự xây dựng ứng dụng truy vấn dữ liệu với Flume



Hiện tôi đang nghiên cứu về Apache Flume. Đây là một công cụ rất mạnh để thu thập dữ liệu cho kho dữ liệu hadoop. Flume cũng cung cấp nhiều source sẵn có cho phép người dùng truy cập các nguồn dữ liệu khác nhau. Người dùng cũng có thể tự xây dựng thư viện truy cập tới nguồn dữ liệu khác.

Thứ Hai, 21 tháng 11, 2016

Keedio FTP Flume Source

banner_0009
Keedio-flume-ftp was created to meet the need of processing information stored on a FTP server. Information is processed by Apache Flume, whose base data information unit is an “event”.
Usually, in an FTP server, data is loaded in bulk, which is a completely different usage paradigm than the event-based paradigm on which Flume relies.

Apache Flume - Giới thiệu

What is Flume?

Apache Flume is a tool/service/data ingestion mechanism for collecting aggregating and transporting large amounts of streaming data such as log files, events (etc...) from various sources to a centralized data store.
Flume is a highly reliable, distributed, and configurable tool. It is principally designed to copy streaming data (log data) from various web servers to HDFS.
Apache Flume