LAS Spark 访问 TOS

大数据数据中台技术服务知识库
问题描述

在大数据存算分离场景下,用户的数据可能会存储在 TOS 中,此时读取数据需要进行一些基础配置才能打通。

问题分析

本文基于 LAS 的 pyspark 程序介绍如何读取对象存储中的数据(其他大数据组件(如 Flink )或 其他开发语言可借鉴参考)

解决方案

需要添加的配置项如下:

参数名
fs.tos.access.key您账号的AK值
fs.tos.secret.key您账号的SK值
fs.tos.change.detection.version.requiredfalse

案例参考代码:

from __future__ import print_function

from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("TestTos") \
        .config("fs.tos.access.key", "您的AK") \
        .config("fs.tos.secret.key", "您的SK") \
        .config("fs.tos.change.detection.version.required", "false") \
        .getOrCreate()

    path = "tos://TOS的Bucket名称/具体路径"
    df = spark.read.text(path)
    df.show()
    spark.stop

如果您有其他问题,欢迎您联系火山引擎技术支持服务

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

所属团队号:
相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论