1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 问题是EMR Spark作业不能找到虚拟环境中安装的包,为确保Spark使用虚拟环境中的Python环境,可以尝试以下步骤:
- 添加以下内容到EMR Spark作业配置中,确保Spark使用虚拟环境中的Python二进制文件:
"spark.executorEnv.PYTHONHASHSEED":"0"
- 在PySpark代码中,添加以下行以显式设置所使用的Python环境:
import os
os.environ['PYSPARK_PYTHON'] = './environment/bin/python'
os.environ['PYSPARK_DRIVER_PYTHON'] = './environment/bin/python'
- 确保pyspark_venv.tar.gz文件已上传到S3存储桶,并具有读取权限。
- 通过检查yarn/userlogs目录中的日志,验证虚拟环境是否已成功加载。
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 1 年前