量化接口-HDFS简介及用C语言访问HDFS接口操作实践

概述近年来，大数据技术如火如荼，如何存储海量数据也成了当今的热点和难点问题，而HDFS分布式文件系统作为Hadoop项目的分布式存储基础，也为HBASE提供数据持久化功能，它在大数据项目中有非常广泛的应用。Hadoop分布式文件系统(HadoopDistributedFileSystem，HDFS)被设计成适合运行在通用硬件(commodityhardwar上的分布式文件系统。HDFS是Hadoop项目的核心子项目，是一种具有高容错性、高可靠性、高可扩展性、高吞吐量等特征的分布式文件系统，可用于云计算或其它大数据应用中海量数据的存储(主要为大文件的存储)。本文结合作者本人及同事对HDFS的学习和实践的理解，首先介绍HDFS的特点和重要SHELL命令(hadoop和hdfs命令)的使用，接着介绍HDFS提供的C访问接口LIBHDFS及其跟普通文件系统的CAPI的异同，然后介绍如何利用LIBHDFS接口实现简单的HDFS客户端并列举相关应用实例，最后针对编写HDFS客户端中遇到的问题进行描述和分析。

HDFS简介HDFS是Hadoop项目的核心子项目，是一种具有高容错性、高可靠性、高可扩展性、高吞吐量等特征的分布式文件系统。HDFS特点HDFS作为一种分布式文件系统，主要有以下特点：主要用于存储和管理大数据文件(由于HDFS默认数据块为128M，所以它主要适合于存储百M级别及以上大小的文件)。其数据节点可横向扩展，且可选择廉价的商业硬件。设计理念为“一次写，多次读”。当前不支持在文件任意位置修改文件内容，只能在文件尾部执行append操作。不适合低延迟(几十毫秒)数据访问应用(低延迟应用可以考虑HBASE分布式数据库或者ES+分布式文件系统的架构)。

C语言访问HDFS应用实践编译和运行环境搭建为了成功编译C语言客户端程序，我们需要预先安装0及以上版本的JAVAJDK和Hadoop发行版，前者提供libjvso等库，后者则提供LIBHDFS连接所需要的库。为了成功运行C语言客户端程序，除了预先安装上面提到的程序外，我们还需要正确地设置几个关键环境变量，包括LD_LIBRARY_PATH和CLASSPATH的设置。关于LD_LIBRARY_PATH环境变量，主要是需要添加libjvso和libhdfs.so库所在路径；而针对CLASSPATH则需要囊括Hadoop提供的所有jar包的全路径信息(具体可通过find+awk组合命令来实现)，否则C语言客户端程序总会报缺少某个类而无法运行的错误。

HDFS简介及用C语言访问HDFS接口操作实践

LIBHDFS接口简单应用实践这里主要介绍部分API的使用示例。获取HDFS文件系统的容量和已使用空间大小信息如GetHdfsInfo函数所示：

void GetHdfsInfo(void)
{
    hdfsFS pfs = NULL;
    int iRet = 0;
tOffset iTmp = 0;

    pfs = hdfsConnect('hdfs://127.0.0.1:9000/', 0);              // 与HDFS文件系统建立连接
    if (NULL == pfs)
    {
        WRITELOGEX(LOG_ERROR, ('GetHdfsInfo(): hdfsConnect failed! errno=%d.', errno));
        return;
    }
WRITELOG(LOG_INFO, 'GetHdfsInfo(): hdfsConnect success!');

    iTmp = hdfsGetCapacity(pfs);                     // 获取HDFS文件系统容量
    if (-1 == iTmp)
    {
        WRITELOGEX(LOG_ERROR, ('GetHdfsInfo(): hdfsGetCapacity failed! errno=%d.', errno));
        hdfsDisconnect(pfs);
        pfs = NULL;
        return;
    }
WRITELOGEX(LOG_INFO, ('GetHdfsInfo(): hdfsGetCapacity success! offset=%ld.', iTmp));

    iTmp = hdfsGetUsed(pfs);         // 获取HDFS文件系统中所有文件占用空间大小，即已使用量
    if (-1 == iTmp)
    {
        WRITELOGEX(LOG_ERROR, ('GetHdfsInfo(): hdfsGetUsed failed! errno=%d.', errno));
        hdfsDisconnect(pfs);
        pfs = NULL;
        return;
    }
    WRITELOGEX(LOG_INFO, ('GetHdfsInfo(): hdfsGetUsed success! offset=%ld.', iTmp));

    iRet = hdfsDisconnect(pfs);                  // 关闭与HDFS文件系统的连接
    if (-1 == iRet)
    {
        WRITELOGEX(LOG_ERROR, ('GetHdfsInfo(): hdfsDisconnect failed! errno=%d.',  errno));
        return;
    }
    WRITELOGEX(LOG_INFO, ('GetHdfsInfo(): hdfsDisconnect success! ret=%d.', iRet));
pfs = NULL;
    return;
}

在HDFS文件系统中新增文件并写入数据如HdfsWriteTest函数所示：

void HdfsWriteTest(hdfsFS pfs)
{
    int iRet = 0;
    hdfsFile pfile = NULL;
    char szTestFile[200] = '/test/ write.test';

    if (NULL == pfs)
    {
        WRITELOG(LOG_ERROR, 'HdfsWriteTest():pfs is null.');
        return;
    }

    pfile = hdfsOpenFile(pfs, szTestFile, O_WRONLY || O_CREAT, 0, 0, 0);      // 打开文件句柄
    if (NULL == pfile)
    {
        WRITELOGEX(LOG_ERROR, ('HdfsWriteTest(): hdfsOpenFile failed! szFilePath=%s,errno=%d.', szTestFile, errno));
        return;
    }
    WRITELOGEX(LOG_INFO, ('HdfsWriteTest(): hdfsOpenFile success! szFilePath=%s.', szTestFile));

    iRet = hdfsWrite(pfs, pfile, 'hello world!', strlen('hello world!'));           // 写入数据
    if (-1 == iRet)
    {
        WRITELOGEX(LOG_ERROR, ('HdfsWriteTest(): hdfsWrite failed! ret=%d,errno=%d.', iRet, errno));
hdfsCloseFile(pfs, pfile);
        pfile = NULL;
        return;
    }
WRITELOGEX(LOG_INFO, ('HdfsWriteTest(): hdfsWrite success! ret=%d.', iRet));

    iRet = hdfsHFlush(pfs, pfile);                           // 将缓冲区中数据写入磁盘
    if (-1 == iRet)
    {
        WRITELOGEX(LOG_ERROR, ('HdfsWriteTest(): hdfsFlush failed! ret=%d,errno=%d.', iRet, errno));
hdfsCloseFile(pfs, pfile);
        pfile = NULL;
        return;
}
    WRITELOGEX(LOG_INFO, ('HdfsWriteTest(): hdfsFlush success! ret=%d.', iRet));
    iRet = hdfsCloseFile(pfs, pfile);                               // 关闭文件句柄，释放资源
    if (-1 == iRet)
    {
        WRITELOGEX(LOG_ERROR, ('HdfsWriteTest(): hdfsCloseFile failed! ret=%d,errno=%d.', iRet, errno));
        return;
    }
    WRITELOGEX(LOG_INFO, ('HdfsWriteTest(): hdfsCloseFile success! ret=%d.', iRet));
pfile = NULL;

    return;
}

遇到的主要问题描述与分析对于LIBHDFS接口的不足之处，在本文第三部分(LIBHDFS接口简介)已有大致描述。在实际性能测试过程中，因LIBHDFS接口引起的问题主要包括：lease租约回收异常和程序句柄资源释放异常等两大类。我们换了多种测试模型，基本确认LIBHDFS接口在某些异常情况下(如频繁对同一个文件执行append操作)会产生上述问题。所以如果在项目中需要实际应用LIBHDFS接口，就需要我们改进客户端程序处理流程，尽量规避和减少上述问题的产生。可以采用如下方法：在客户端程序和HDFS文件系统间增加缓存的方式降低HDFS的读写密度；减少对HDFS文件系统的更新操作，例如文件写入完成后就不再执行append操作，只执行read操作。

总结本文对HDFS和用C语言访问HDFS的操作进行了详细的介绍，可供相关项目的开发人员参考。HDFS作为一种分布式文件系统，并不是万能的，例如并不适合于存储量太小或要求低访问延迟的应用场景，又或者需要频繁更新数据的系统。即使应用了HDFS文件系统，为了发挥HDFS文件系统的最大效率，仍可能需要通过我们修改业务分层或逻辑实现等手段来规避HDFS的一些缺点。

文章为作者独立观点，不代表股票程序化软件自动交易接口观点

量化接口-HDFS简介及用C语言访问HDFS接口操作实践

量化接口-react对接口获取数据篇

量化接口-支付宝统一下单支付接口

量化接口-STM32网络之SMI接口

量化接口-JavaSE入门学习21：Java面向对象之接口 interface 二

量化接口-react对接口 获取数据篇

量化接口-支付宝统一下单支付接口

量化接口-STM32网络之SMI接口

量化接口-JavaSE入门学习21：Java面向对象之接口 interface 二

量化接口-react对接口获取数据篇