1 Resposta
- Mais recentes
- Mais votos
- Mais comentários
0
【以下的回答经过翻译处理】 问题是EMR Spark作业不能找到虚拟环境中安装的包,为确保Spark使用虚拟环境中的Python环境,可以尝试以下步骤:
- 添加以下内容到EMR Spark作业配置中,确保Spark使用虚拟环境中的Python二进制文件:
"spark.executorEnv.PYTHONHASHSEED":"0"
- 在PySpark代码中,添加以下行以显式设置所使用的Python环境:
import os
os.environ['PYSPARK_PYTHON'] = './environment/bin/python'
os.environ['PYSPARK_DRIVER_PYTHON'] = './environment/bin/python'
- 确保pyspark_venv.tar.gz文件已上传到S3存储桶,并具有读取权限。
- 通过检查yarn/userlogs目录中的日志,验证虚拟环境是否已成功加载。
Conteúdo relevante
- AWS OFICIALAtualizada há 2 anos
- AWS OFICIALAtualizada há um ano
- AWS OFICIALAtualizada há um ano
- AWS OFICIALAtualizada há um ano