Trong bài trước đã hướng dẫn sử dụng Hive phân tích dữ liệu chứng khoán. Trong ví dụ đó, tôi sử dụng lệnh “load data local inpath” để đưa dữ liệu từ thư mục lưu trữ trên máy local vào tảng dữ liệu đã được tạo sẵn trong hive. Lệnh trên cũng đồng thời tạo thư mục NYSE trong workspace của Hive trên HDFS. Với lệnh trên, tôi phân vân rằng liệu với dữ liệu streaming (sử dụng Apache Flume liên tục đẩy dữ liệu vào HDFS) thì làm thế nào để Hive có thể đọc được (dữ liệu mới được tự động đẩy vào Hive table để phân tích). Rất may Hive đã làm cho tôi việc này. Để hiểu rõ hơn cơ chế đọc dữ liệu của Hive, tôi đã test một trường hợp sau:
Hiển thị các bài đăng có nhãn ApacheFlume. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn ApacheFlume. Hiển thị tất cả bài đăng
Thứ Tư, 30 tháng 11, 2016
Thứ Bảy, 26 tháng 11, 2016
Tự xây dựng ứng dụng truy vấn dữ liệu với Flume
Hiện tôi đang nghiên cứu về Apache Flume. Đây là một công cụ rất mạnh để thu thập dữ liệu cho kho dữ liệu hadoop. Flume cũng cung cấp nhiều source sẵn có cho phép người dùng truy cập các nguồn dữ liệu khác nhau. Người dùng cũng có thể tự xây dựng thư viện truy cập tới nguồn dữ liệu khác.
Thứ Hai, 21 tháng 11, 2016
Keedio FTP Flume Source
Keedio-flume-ftp was created to meet the
need of processing information stored on a FTP server. Information is
processed by Apache Flume, whose base data information unit is an
“event”.
Usually, in an FTP server, data is
loaded in bulk, which is a completely different usage paradigm than the
event-based paradigm on which Flume relies.
Nhãn:
ApacheFlume
,
BigData
,
DataIngestion
Apache Flume - Giới thiệu
What is Flume?
Apache Flume is a tool/service/data ingestion mechanism for collecting aggregating and transporting large amounts of streaming data such as log files, events (etc...) from various sources to a centralized data store.Flume is a highly reliable, distributed, and configurable tool. It is principally designed to copy streaming data (log data) from various web servers to HDFS.
Nhãn:
ApacheFlume
,
BigData
,
DataIngestion
Đăng ký:
Bài đăng
(
Atom
)