简介

tsar是淘宝自己开发的一个采集工具,主要用来收集服务器的系统信息(如cpu,io,mem,tcp等),以及应用数据(如squid haproxy nginx等)。收集到的数据存储在磁盘上,可以随时查询历史信息,输出方式灵活多样,另外支持将数据存储到MySQL中,也可以将数据发送到nagios报警服务器。tsar在展示数据时,可以指定模块,并且可以对多条信息的数据进行merge输出,带–live参数可以输出秒级的实时信息。

github

安装方法

wget -O tsar.zip https://github.com/alibaba/tsar/archive/master.zip --no-check-certificate
unzip tsar.zip
cd tsar
make
make install

或者yum源安装也行;

说明

安装好tsar之后,会生成配置文件、数据 和 定时任务;
定时任务会每分钟执行,用于收集信息,对于排查历史数据颇为有用;
1、定时任务:
image.png
2、日志:这个 /var/log/tsar.data 就是收集的数据;
image.png
3、日志轮转文件: /etc/logrotate.d/tsar

使用

1、常用参数

$tsar -h
Usage: tsar [options]
Options:
    -check         查看最后一次的采集数据
    --check/-C     查看最后一次tsar的提醒信息,如:tsar --check / tsar --check --cpu --io
    --cron/-c      使用crond模式来进行tsar监控
    --interval/-i  指明tsar的间隔时间,默认单位分钟,带上--live参数则单位是秒 
    --list/-L      列出启用的模块
    --live/-l      查看实时数据
    --file/-f      指定输入文件
    --ndays/-n     指定过去的数据天数,默认1天
    --date/-d      指定日期,YYYYMMDD或者n代表n天前
    --detail/-D    能够指定查看主要字段还是模块的所有字段
    --spec/-s      指定字段,tsar –cpu -s sys,util

Modules Enabled:
    --cpu               列出cpu相关的监控计数
    --mem               物理内存的使用情况
    --swap              虚拟内存的使用情况
    --tcp               TCP 协议 IPV4的使用情况
    --udp               UDP 协议 IPV4的使用情况
    --traffic           网络传出的使用情况
    --io                Linux IO的情况
    --pcsw              进程和上下文切换
    --partition         磁盘使用情况
    --tcpx              TCP 连接相关的数据参数
    --load              系统负载情况

实时查看数据

1、查看所有监控项的简介信息:

tsar -i 1 -l

image.png

2、查看指定监控项的详细信息:

tsar --cpu --load -i 1 -l

image.png

可以通过添加、删除 --cpu、--load 等参数来查看各个指标的数值;
-i 是指定每隔几秒显示;
-l 是实时输出;
其他参数为性能指标参数,自己指定即可;

追溯历史数据

备注:历史数据是从tsar安装之后开始记录的,无法看到tsar安装之前的数据;

使用方法 和 实时 的略有区别;
示例:
image.png

tsar --load --cpu -d "20200801" -f /var/log/tsar.data
-d : 指定历史日期;
-f : 指定tsar的数据文件;
--load --cpu : 要查看的参数指标;

参数指标说明

cpu

采集方法:CPU的占用率计算,都是根据/proc/stat计数器文件而来

字段含义
user: 表示CPU执行用户进程的时间,通常期望用户空间CPU越高越好.
sys: 表示CPU在内核运行时间,系统CPU占用率高,表明系统某部分存在瓶颈.通常值越低越好.
wait: CPU在等待I/O操作完成所花费的时间.系统部应该花费大量时间来等待I/O操作,否则就说明I/O存在瓶颈.
hirq: 系统处理硬中断所花费的时间百分比
sirq: 系统处理软中断所花费的时间百分比
util: CPU总使用的时间百分比
nice: 系统调整进程优先级所花费的时间百分比
steal: 被强制等待(involuntary wait)虚拟CPU的时间,此时hypervisor在为另一个虚拟处理器服务
ncpu: CPU的总个数

mem

采集方法:内存的计数器在/proc/meminfo

字段含义
free: 空闲的物理内存的大小
used: 已经使用的内存大小
buff: buff使用的内存大小,缓冲区是尚未“写入”到磁盘的数据。
cach: 操作系统会把经常访问的东西放在cache中加快执行速度,缓存是从磁盘中“读取”并存储以供以后使用的内容;
total: 系统总的内存大小
util: 内存使用率

load

采集方法:/proc/loadavg文件中保存的有负载相关的数据

字段含义
load1: 一分钟的系统平均负载
load5: 五分钟的系统平均负载
load15:十五分钟的系统平均负载
runq: 在采样时刻,运行队列的任务的数目,与/proc/stat的procs_running表示相同意思
plit: 在采样时刻,系统中活跃的任务的个数(不包括运行已经结束的任务)

traffic

采集方法:流量的计数器信息来自 /proc/net/dev

字段含义
bytin: 入口流量byte/s
bytout: 出口流量byte/s
pktin: 入口pkt/s
pktout: 出口pkt/s

tcp

采集方法:tcp的相关计数器文件是 /proc/net/snmp

字段含义
active:主动打开的tcp连接数目
pasive:被动打开的tcp连接数目
iseg: 收到的tcp报文数目
outseg:发出的tcp报文数目
EstRes:在建立时发生的复位次数
AtmpFa:连接尝试失败的次数
CurrEs:当前状态为ESTABLISHED的tcp连接数
retran:系统的重传率

udp

采集方法:UDP的数据来源文件和TCP一样,也是在/proc/net/snmp

字段含义
idgm: 收到的udp报文数目
odgm: 发送的udp报文数目
noport:udp协议层接收到目的地址或目的端口不存在的数据包
idmerr:udp层接收到的无效数据包的个数

io

rrqms: 每秒发送给设备的合并读请求数。
wrqms: 每秒发送到设备的合并写请求的数量。
rs: 每秒发送给设备的读请求数。
ws: 每秒向设备发出的写请求的数量。
rsecs: 每秒从设备读取的扇区数。
wsecs: 每秒写入设备的扇区数。
rqsize:向设备发出的请求的平均大小(在扇区中)。
qusize:向设备发出的请求的平均队列长度。
await: 向设备发出I/O请求的平均时间(以毫秒为单位)。这包括队列中的请求所花费的时间以及为它们提供服务所花费的时间。
svctm: 发给设备的I/O请求的平均服务时间(以毫秒为单位)。
util: 向设备发出I/O请求期间的CPU时间百分比(设备的带宽利用率)。当此值接近100%时,设备饱和发生。

注意:
扇区一般都是512字节,因此有的地方除以2了 ws是指真正落到io设备上的写次数, wrqpms是指系统调用合并的写次数, 它们之间的大小关系没有可比性,因为不知道多少请求能够被合并,比如发起了100个read系统调用,每个读4K,假如这100个都是连续的读,由于硬盘通常允许最大的request为256KB,那么block层会把这100个读请求合并成2个request,一个256KB,另一个144KB,rrqpm/s为100,因为100个request都发生了合并,不管它最后合并成几个;r/s为2,因为最后的request数为2

paritition

采集方法:首先通过/etc/mtab获取到分区信息,然后通过statfs访问该分区的信息,查询文件系统相关信息

字段含义
bfree: 分区空闲的字节
bused: 分区使用中的字节
btotl: 分区总的大小
util: 分区使用率

pcsw

采集方法:计数器在/proc/stat

字段含义
cswch: 进程切换次数
proc: 新建的进程数

proc

字段含义
user: 某个进程用户态cpu消耗
sys: 某个进程系统态cpu消耗
total:某个进程总的cpu消耗
mem: 某个进程的内存消耗百分比
RSS: 某个进程的虚拟内存消耗,这是驻留在物理内存的一部分.它没有交换到硬盘.它包括代码,数据和栈
read: 进程io读字节
write:进程的io写字节

采集方法:计数器文件
/proc/pid/stat:获取进程的cpu信息
/proc/pid/status:获取进程的mem信息
/proc/pid/io:获取进程的读写IO信息

结语

以上为常用参数,基本可以排查大部分问题,还有一些其他的性能指标参数,具体参考:链接

打赏
支付宝 微信
上一篇 下一篇