如何在AWS Glue中处理带有页脚信息的文本文件?

0

【以下的问题经过翻译处理】 我正在尝试使用AWS Glue处理一个文本文件,该文件在第一行中具有标题信息,在最后一行中具有页脚信息。该文件有10个数据列,但页脚只有两个列(文件中的记录数和文件来源)。

在AWS Glue中处理这种类型的文件的最佳方法是什么?

profile picture
EXPERT
demandé il y a un an44 vues
1 réponse
0

【以下的回答经过翻译处理】 您可以在AWS Glue中使用以下PySpark脚本来处理像您描述的那样的平面文件:

sample_df_1=sc.textFile('temp.txt')
sample_df_1.collect()
['1,2,3,4,5,6,7,8,9,10', 'A,B,C,D,E,F,G,H,I,K', 'foot,er']
hdr=sample_df_1.first()
sample_df_2=sample_df_1.filter(lambda l:l != hdr)
sample_df_2.collect()
['A,B,C,D,E,F,G,H,I,K', 'foot,er']
final_df=sample_df_2.map(lambda l:l.split(',')).filter(lambda l: len(l) > 2)
j=final_df.toDF()

j.show()
+---+---+---+---+---+---+---+---+---+---+
| _1| _2| _3| _4| _5| _6| _7| _8| _9|_10|
+---+---+---+---+---+---+---+---+---+---+
|  A|  B|  C|  D|  E|  F|  G|  H|  I|  K|
+---+---+---+---+---+---+---+---+---+---+

profile picture
EXPERT
répondu il y a un an

Vous n'êtes pas connecté. Se connecter pour publier une réponse.

Une bonne réponse répond clairement à la question, contient des commentaires constructifs et encourage le développement professionnel de la personne qui pose la question.

Instructions pour répondre aux questions