LAS Spark 访问 TOS

大数据数据中台技术服务知识库
问题描述

在大数据存算分离场景下,用户的数据可能会存储在 TOS 中,此时读取数据需要进行一些基础配置才能打通。

问题分析

本文基于 LAS 的 pyspark 程序介绍如何读取对象存储中的数据(其他大数据组件(如 Flink )或 其他开发语言可借鉴参考)

解决方案

需要添加的配置项如下:

参数名
fs.tos.access.key您账号的AK值
fs.tos.secret.key您账号的SK值
fs.tos.change.detection.version.requiredfalse

案例参考代码:

from __future__ import print_function

from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("TestTos") \
        .config("fs.tos.access.key", "您的AK") \
        .config("fs.tos.secret.key", "您的SK") \
        .config("fs.tos.change.detection.version.required", "false") \
        .getOrCreate()

    path = "tos://TOS的Bucket名称/具体路径"
    df = spark.read.text(path)
    df.show()
    spark.stop

如果您有其他问题,欢迎您联系火山引擎技术支持服务

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

所属团队号:
相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论