如何在AWS Glue中处理带有页脚信息的文本文件?

0

【以下的问题经过翻译处理】 我正在尝试使用AWS Glue处理一个文本文件,该文件在第一行中具有标题信息,在最后一行中具有页脚信息。该文件有10个数据列,但页脚只有两个列(文件中的记录数和文件来源)。

在AWS Glue中处理这种类型的文件的最佳方法是什么?

profile picture
EXPERTE
gefragt vor einem Jahr44 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 您可以在AWS Glue中使用以下PySpark脚本来处理像您描述的那样的平面文件:

sample_df_1=sc.textFile('temp.txt')
sample_df_1.collect()
['1,2,3,4,5,6,7,8,9,10', 'A,B,C,D,E,F,G,H,I,K', 'foot,er']
hdr=sample_df_1.first()
sample_df_2=sample_df_1.filter(lambda l:l != hdr)
sample_df_2.collect()
['A,B,C,D,E,F,G,H,I,K', 'foot,er']
final_df=sample_df_2.map(lambda l:l.split(',')).filter(lambda l: len(l) > 2)
j=final_df.toDF()

j.show()
+---+---+---+---+---+---+---+---+---+---+
| _1| _2| _3| _4| _5| _6| _7| _8| _9|_10|
+---+---+---+---+---+---+---+---+---+---+
|  A|  B|  C|  D|  E|  F|  G|  H|  I|  K|
+---+---+---+---+---+---+---+---+---+---+

profile picture
EXPERTE
beantwortet vor einem Jahr

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen