LAS Spark 访问 TOS

大数据数据中台技术服务知识库
问题描述

在大数据存算分离场景下,用户的数据可能会存储在 TOS 中,此时读取数据需要进行一些基础配置才能打通。

问题分析

本文基于 LAS 的 pyspark 程序介绍如何读取对象存储中的数据(其他大数据组件(如 Flink )或 其他开发语言可借鉴参考)

解决方案

需要添加的配置项如下:

参数名
fs.tos.access.key您账号的AK值
fs.tos.secret.key您账号的SK值
fs.tos.change.detection.version.requiredfalse

案例参考代码:

from __future__ import print_function

from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("TestTos") \
        .config("fs.tos.access.key", "您的AK") \
        .config("fs.tos.secret.key", "您的SK") \
        .config("fs.tos.change.detection.version.required", "false") \
        .getOrCreate()

    path = "tos://TOS的Bucket名称/具体路径"
    df = spark.read.text(path)
    df.show()
    spark.stop

如果您有其他问题,欢迎您联系火山引擎技术支持服务

75
0
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论