flume flume启动命令详解

编程之家2024-02-27140次浏览

netcat一个端口的数据流：$telnetbigdata11144445登录远程主机，输入数据

一个NetCatSource用来监听一个指定端口，并将接收到的数据的每一行转换为一个事件。

属性

type:组件类型名称

bind：要监听的主机名或IP地址

port：要绑定的端口号

2）exec

ExecSource在启动时运行给定的Unix命令，然后通过这个命令不断输出数据，将命令产生的输出作为源。如果进程由于任何原因退出，source也会退出，并且不会生成更多数据。

type：exec

command是unix命令

spooldir

SpoolingDirectorySource监测配置的目录下新增的文件，并将文件中的数据读取出来。其中，SpoolSource有2个注意地方，第一个是拷贝到spool目录下的文件不可以再打开编辑，第二个是spool目录下不可包含相应的子目录。这个主要用途作为对日志的准实时监控。

Avro序列化【ApacheAvro是数据序列化的系统】

监听AVRO端口，来接受来自外部AVRO客户端的事件流。avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。所以，如果是avro-source的话，源数据必须是经过avro序列化后的数据。接收通过flume提供的avro客户端发送的日志信息。

Flume中的多级流动是指将数据从源头传输到目的地时，可以通过多个FlumeAgent进行传递和处理。

每个FlumeAgent都可以对数据进行不同的处理，例如过滤、转换、聚合等。

这种多级流动的设计可以提高数据传输的效率和可靠性，同时也可以实现数据的多样化处理。

例如，可以将数据从Web服务器传输到Hadoop集群，同时在传输过程中进行数据清洗和转换，最终将数据存储到HDFS中。

这种多级流动的设计可以满足不同场景下的数据处理需求。

flume中多级流动指流经flume的流体受到多个侧孔的抽吸排放作用，各个侧孔对流体产生抽吸排放作用形成多级跌水流。多级流动可以提高flume的流量测量精度，并且可以减少流速对测量精度的影响。在设计flume时，需要考虑流体的特性、流量范围、测量精度等因素，以确定合适的侧孔数量和位置。