1 Risposta
- Più recenti
- Maggior numero di voti
- Maggior numero di commenti
0
Glue can definitely be used for loading dimensional data into Redshift. Approach will depend on what kind of dimension it is (SCD Type). And you can certainly generate surrogate ids in Glue. Example: I have used this in the past.
def customer_id(custid):
x = int(str(hashlib.md5(custid.encode()).hexdigest()[:10]),16)
x = int(x)
return x
However, make sure you follow the logic consistently across different datasets to produce consistent surrogate ids.
Ideally, a staging table should be present and from staging to main table, you can govern the logic through redshift procedure or plain SQL depending upon the complexity.
con risposta 4 anni fa
Contenuto pertinente
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata un anno fa
- AWS UFFICIALEAggiornata un anno fa
- Come posso risolvere gli errori di connessione di Marketplace AWS nei miei processi ETL in AWS Glue?AWS UFFICIALEAggiornata 3 mesi fa