LAS Spark 访问 TOS

大数据数据中台技术服务知识库
问题描述

在大数据存算分离场景下,用户的数据可能会存储在 TOS 中,此时读取数据需要进行一些基础配置才能打通。

问题分析

本文基于 LAS 的 pyspark 程序介绍如何读取对象存储中的数据(其他大数据组件(如 Flink )或 其他开发语言可借鉴参考)

解决方案

需要添加的配置项如下:

参数名
fs.tos.access.key您账号的AK值
fs.tos.secret.key您账号的SK值
fs.tos.change.detection.version.requiredfalse

案例参考代码:

from __future__ import print_function

from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("TestTos") \
        .config("fs.tos.access.key", "您的AK") \
        .config("fs.tos.secret.key", "您的SK") \
        .config("fs.tos.change.detection.version.required", "false") \
        .getOrCreate()

    path = "tos://TOS的Bucket名称/具体路径"
    df = spark.read.text(path)
    df.show()
    spark.stop

如果您有其他问题,欢迎您联系火山引擎技术支持服务

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

所属团队号:
相关资源
基于火山引擎 EMR 构建企业级数据湖仓
火山引擎 EMR 是一款云原生开源大数据平台,提供主流的开源大数据引擎,加持了字节跳动内部的优化、海量数据处理的最佳实践。本次演讲将为大家介绍火山引擎 EMR 的架构及核心特性,如何基于开源架构构建企业级数据湖仓,同时向大家介绍火山 EMR 产品的未来规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论