タグ付けされた質問 AWS Glue

AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.

コンテンツの言語: 日本語

フィルターするタグを選択する
並べ替え 最新

以下に記載されている質問と回答を閲覧したり、フィルタリングして並べ替えて結果を絞り込んだりできます。

18件の結果
AWS GlueからAzure上のSQL Serverのデータ取得を試みています。 テーブル名がASCIIの場合は問題なく取得できますが、日本語の場合はエラーになります。 Azure上なので文字コードはSJISのはずですが、日本語(SJIS)はサポート外でしょうか? AWS GlueはJDBCを呼びだしていますが、JDBCとしてはcharacterEncoding=MS932と設定できますが、AW...
1
回答
0
投票
87
ビュー
質問済み 3ヶ月前
GlueジョブのCI/CDとしてGit上のスクリプトを元にCloudFormationテンプレートを作成してジョブデプロイをする方法を考えてます。 メンテナンス性を考慮してGlueジョブはVisualETLで編集可能な形にしたいです。 CloudFormationテンプレートを使ったGlueジョブデプロイ時にVisualETLで編集可能な形で作成するためには、CloudFormationテンプレー...
1
回答
0
投票
67
ビュー
質問済み 3ヶ月前
取り込んだデータをparquet化し、S3に格納するJOBがあるとします。 ファイル名ランダムで、複数ファイルが同じS3に格納される方式の想定です。 一部並列で実行しているworkerが先にS3へparquetファイルを格納した場合は、 その後他のworkerでエラー出力され、jobが止まってもs3にparquetファイルはそのまま残りますでしょうか
1
回答
0
投票
42
ビュー
質問済み 3ヶ月前
AWS Glue Visual ETLを使用して、OracleSQLから、parquet形式でS3にテーブルデータを差分出力したいです。 VisualETLで、データソースをOracleSQL、データターゲットをS3に設定し、parquet形式で出力を行いました。 再度ETLを実行すると、同じテーブルデータに対し、ファイル名の異なるparquetファイルが出力されてしまいます。 (parquet...
1
回答
0
投票
147
ビュー
質問済み 4ヶ月前
Glueのwrite_dynamic_frame.from_optionsでpartitionを分けると出力されたデータからpartitionに使用した項目が除外されます。これを残す方法はありますでしょうか? visual editor でなくcustom transformでコードを記載する必要がありますか?
1
回答
0
投票
123
ビュー
質問済み 5ヶ月前
東京リージョンにてAWS①と②の2つのAWSアカウントを使用しており、AWS①は毎日1回13時30分ごろに①が保有するS3に対象ファイルを格納した事をS3の通知機能を利用してAWS②に通知を行っている。②のevent bridgeがこの通知を検知してGlueのワークフローを起動するように設定している。 起動したGlue JOBにて処理日確認の機能を入れており、①から連携された通知のログストリームに...
1
回答
0
投票
215
ビュー
質問済み 5ヶ月前
connectionを利用してRDSに接続している(SGはconnectionとRDSともに同じ、private subnet内)GlueJobを起動したいのですが、以下のエラーが出てしまいます。おそらくジョブが存在しないと怒られています。 ``` { "details": { "cause": "Failed to start job run due to missin...
2
回答
0
投票
230
ビュー
質問済み 6ヶ月前
S3にあるデータをGlueのDBを使用して、Athenaで検索を行いたいのですが、S3とGlueを接続するにはVPCエンドポイントによる接続が必要になりますか?
1
回答
0
投票
121
ビュー
質問済み 6ヶ月前
Glue jobをStepfunctionsから実行する際、2024年11月9日02:08:52(JST)にFile already existsが発生しました。 こちらの事象の原因がわからず、ご教授頂ければ幸いです。 発生は2024年11月9日のみで、他の実行は同様のエラーが発生せず、再現性がない状態です。 エラーメッセージに以下の記載がありますが、該当jobで出力されるcsv は、他のj...
0
回答
0
投票
37
ビュー
質問済み 6ヶ月前
Glueでデータカタログを使用してRedshiftからデータを取得する場合、VPCーサブネットを経由するためIPを消費します。(IPが割り当てられるためIPが枯渇することがあります) 一方、LambdaからRedshit data APIを使用してクエリを使用する際はVPCの設定が必要ありません。IPの割り当ても必要としないようです。 この違いはどこにあるのでしょうか?
1
回答
0
投票
191
ビュー
質問済み 7ヶ月前
CrawlerでOracleデータベースのDataCatalogを作成する際、 スキーマの指定が出来ません。 仮に同一インスタンス内にある複数のスキーマで 物理名が同じテーブルが複数あった場合、 正しくDataCatalogは作成されるのでしょうか。 また上記の状態の場合、 特定スキーマに定義されているテーブルを指定して、 Crawlerを作成し、DataCatalogを作成する事は可能でしょ...
0
回答
0
投票
307
ビュー
質問済み 1年前
タイトルの通りです。 まず、前提の状況として、redshiftはprivate subnetに存在しています。 クエリエディタv2で、きちんと動作しています。 また、quick sightへの取り込みもできてる状態です。 やりたいこととしては、redshiftのデータカタログを作成した上で、それをathenaでクエリするということです。 なお、s3をソースにしたデータカタログについてはathe...
0
回答
0
投票
225
ビュー
質問済み 1年前
  • 1
  • 2
  • 12 件 / ページ