采坑系列-tar命令解压写入速度过快

采坑系列是记录日常学习/工作中所遇到的问题，可能是一个Bug、一次性能优化、一次思考等，目的是记录自己所处理过的问题，以及解决问题这一过程中所做的思考或总结，避免后续再犯相似的错误。

问题描述

近期线上的排序服务在某个时间点内出现了大量特征获取超时告警，大概是集中在中午12点左右和下午4点左右，告警持续一会后就自动恢复了，下面是某一天的告警情况：

服务获取特征是以本地存储（基于Rocksdb）的方式获取的，且内存缓存配置得足够多，数据基本都是从内存中读取，耗时一般在几毫秒左右；看代码在获取特征的地方限制了300ms超时，正常情况下应该不会超过这个时间的，除非是有什么操作导致了获取数据得去读磁盘。

探究原因

初探

基于以上的想法，首先排查看是否在产生超时的那个时间内，磁盘的读会比正常情况大，下面是服务的某个实例机的I/O监控：

基于上面两张监控图可以看到，确实在异常的时间点，磁盘的读会比其他时间段大很多，最大耗时到了 1s 以上，这种情况已经远超过设置的 300ms 超时时间了。此外，在这里也注意到了磁盘的写入速度也异常的大，峰值达到了287.9MB/s。观察到这里，猜测可能是磁盘的写过大导致读响应慢了（个人直觉-。-，具体未去验证），下面就是找出具体是什么原因导致那段时间内磁盘写入速度辣么大。

再探

服务内部获取特征使用到的本地存储框架，是基于Rocksdb存储开发的，下面是该框架与服务的简单交互流程：

由一个索引服务去同步特征数据写成Rocksdb表，再将写好的Rocksdb文件打包压缩（tar文件）上传到Hdfs上
排序服务从Hdfs上下载索引服务上传的tar文件到本地，再进行解包解压，然后恢复成Rocksdb表提供查询

根据这个流程，再结合服务内部的一些日志，查到了在异常发生的时间段内会有表索引下载操作，所以认为可能是下载Hdfs文件到本地这一操作导致磁盘写入过快，因此在下载那里做了一个限速尝试，但上线后依然写入没有下降。后来再仔细对比了下载日志与磁盘写入监控，发现磁盘写入飙升的时间点刚好是tar文件刚下载完成后，所以猜测可能是tar文件的解压所导致的，接着查看了代码内tar文件的解压方式，发现内部是采用Linux的tar命令去做解压的，再从网上查到tar命令确实会有解压速度的问题。

解决方法

解决tar命令解压写入速度过快的方法，从网上找到了一种方法说可以结合pv命令使用，但因为考虑安装服务的机器可能没有pv命令，所以没有采用这种方法。因考虑到用命令的方式无法控制写入速度，所以后面决定改用Java的方式去解压，这里采用了Apache的commons-compress里面的TarArchiveInputStream去做解压，具体实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
// FileUtils.java
public static void unTar(InputStream in, String outputDir) throws IOException {
    unTar(in, outputDir, IOUtils::writeWithoutLimit);
}
private static void unTar(InputStream in, String outputDir, IOBiConsumer<File, InputStream> writeFileOp) throws IOException {
    try (TarArchiveInputStream tis = new TarArchiveInputStream(in)) {
        TarArchiveEntry nextEntry;
        while ((nextEntry = tis.getNextTarEntry()) != null) {
            if (nextEntry.isDirectory()) {
                continue;
            }
            writeFileOp.accept(new File(outputDir, nextEntry.getName()), tis);
        }
    }
}
// IOUtils.java
public static void writeWithoutLimit(File outputFile, InputStream in) throws IOException {
    createParentIfNotExists(outputFile);
    try (BufferedOutputStream bos = new BufferedOutputStream(new FileOutputStream(outputFile))) {
        writeWithoutLimit(bos, in);
    }
}
private static void createParentIfNotExists(File outputFile) {
    if (!outputFile.getParentFile().exists()) {
        outputFile.getParentFile().mkdirs();
    }
}
public static void writeWithoutLimit(OutputStream out, InputStream in) throws
            IOException {
    byte[] bytes = new byte[1024];
    int len;
    while ((len = in.read(bytes)) > 0) {
        out.write(bytes, 0, len);
    }
    out.flush();
}

更换了解压方式后，磁盘写入速度峰值降到了90MB/s左右，磁盘读耗时峰值也降到了300ms，下面是更换后的I/O监控：

异常超时的量也从原来的1600多个，降到了200多个，下面是更换后的异常超时监控：

后面发现存储框架那边的流程其实可以简化，让排序服务直接读取Hdfs上的tar文件并解压到本地，可以省去从Hdfs上下载文件到本地的过程，不仅减少了索引下载到加载的时间，而且也减少了磁盘的写入，修改后的磁盘写入速度下降到了50MB/s以下，磁盘读取耗时峰值降到了170ms左右，异常超时发生的数量也减了不少。

总结

本次所遇到的问题算是比较不常见的，因为日常做业务开发涉及到磁盘I/O的可能会比较少，因此也很少关注这方面的问题；刚好是服务用到了本地存储这个对磁盘读写比较敏感的东西，磁盘有一点比较大的波动就可能对服务性能产生影响，因此需要特别留意磁盘的写入速度。这次排查能够比较顺利很大的功劳在于监控系统，在业务监控系统能够看到异常发生的问题点以及时间点，在基础监控系统能够看到机器磁盘I/O的变化情况，再结合部分业务日志，定位问题显然高效了许多，所以有一套比较完善的监控体系真挺重要的。

采坑系列-tar命令解压写入速度过快

问题描述

探究原因

初探

再探

解决方法

总结

相关文章：