flume flume启动命令详解
一、flume的数据类型
netcat一个端口的数据流:$telnetbigdata11144445登录远程主机,输入数据
一个NetCatSource用来监听一个指定端口,并将接收到的数据的每一行转换为一个事件。
属性
type:组件类型名称
bind:要监听的主机名或IP地址
port:要绑定的端口号
2)exec
ExecSource在启动时运行给定的Unix命令,然后通过这个命令不断输出数据,将命令产生的输出作为源。如果进程由于任何原因退出,source也会退出,并且不会生成更多数据。
type:exec
command是unix命令
spooldir
SpoolingDirectorySource监测配置的目录下新增的文件,并将文件中的数据读取出来。其中,SpoolSource有2个注意地方,第一个是拷贝到spool目录下的文件不可以再打开编辑,第二个是spool目录下不可包含相应的子目录。这个主要用途作为对日志的准实时监控。
Avro序列化【ApacheAvro是数据序列化的系统】
监听AVRO端口,来接受来自外部AVRO客户端的事件流。avro-source接收到的是经过avro序列化后的数据,然后反序列化数据继续传输。所以,如果是avro-source的话,源数据必须是经过avro序列化后的数据。接收通过flume提供的avro客户端发送的日志信息。
二、flume中多级流动是指
Flume中的多级流动是指将数据从源头传输到目的地时,可以通过多个FlumeAgent进行传递和处理。
每个FlumeAgent都可以对数据进行不同的处理,例如过滤、转换、聚合等。
这种多级流动的设计可以提高数据传输的效率和可靠性,同时也可以实现数据的多样化处理。
例如,可以将数据从Web服务器传输到Hadoop集群,同时在传输过程中进行数据清洗和转换,最终将数据存储到HDFS中。
这种多级流动的设计可以满足不同场景下的数据处理需求。
三、flume中多级流动指什么
flume中多级流动指流经flume的流体受到多个侧孔的抽吸排放作用,各个侧孔对流体产生抽吸排放作用形成多级跌水流。多级流动可以提高flume的流量测量精度,并且可以减少流速对测量精度的影响。在设计flume时,需要考虑流体的特性、流量范围、测量精度等因素,以确定合适的侧孔数量和位置。