问题描述
在大数据存算分离场景下,用户的数据可能会存储在 TOS 中,此时读取数据需要进行一些基础配置才能打通。
问题分析
本文基于 LAS 的 pyspark 程序介绍如何读取对象存储中的数据(其他大数据组件(如 Flink )或 其他开发语言可借鉴参考)
解决方案
需要添加的配置项如下:
参数名 | 值 |
---|---|
fs.tos.access.key | 您账号的AK值 |
fs.tos.secret.key | 您账号的SK值 |
fs.tos.change.detection.version.required | false |
案例参考代码:
from __future__ import print_function
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession \
.builder \
.appName("TestTos") \
.config("fs.tos.access.key", "您的AK") \
.config("fs.tos.secret.key", "您的SK") \
.config("fs.tos.change.detection.version.required", "false") \
.getOrCreate()
path = "tos://TOS的Bucket名称/具体路径"
df = spark.read.text(path)
df.show()
spark.stop
如果您有其他问题,欢迎您联系火山引擎技术支持服务