Help improve AWS Support Official channel in re:Post and share your experience - complete a quick three-question survey to earn a re:Post badge!
タグ付けされた質問 AWS Glue
AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.
コンテンツの言語: 日本語
フィルターするタグを選択する
並べ替え 最新
以下に記載されている質問と回答を閲覧したり、フィルタリングして並べ替えて結果を絞り込んだりできます。
18件の結果
AWS GlueからAzure上のSQL Serverのデータ取得を試みています。
テーブル名がASCIIの場合は問題なく取得できますが、日本語の場合はエラーになります。
Azure上なので文字コードはSJISのはずですが、日本語(SJIS)はサポート外でしょうか?
AWS GlueはJDBCを呼びだしていますが、JDBCとしてはcharacterEncoding=MS932と設定できますが、AW...
GlueジョブのCI/CDとしてGit上のスクリプトを元にCloudFormationテンプレートを作成してジョブデプロイをする方法を考えてます。
メンテナンス性を考慮してGlueジョブはVisualETLで編集可能な形にしたいです。
CloudFormationテンプレートを使ったGlueジョブデプロイ時にVisualETLで編集可能な形で作成するためには、CloudFormationテンプレー...
取り込んだデータをparquet化し、S3に格納するJOBがあるとします。
ファイル名ランダムで、複数ファイルが同じS3に格納される方式の想定です。
一部並列で実行しているworkerが先にS3へparquetファイルを格納した場合は、
その後他のworkerでエラー出力され、jobが止まってもs3にparquetファイルはそのまま残りますでしょうか
AWS Glue Visual ETLを使用して、OracleSQLから、parquet形式でS3にテーブルデータを差分出力したいです。
VisualETLで、データソースをOracleSQL、データターゲットをS3に設定し、parquet形式で出力を行いました。
再度ETLを実行すると、同じテーブルデータに対し、ファイル名の異なるparquetファイルが出力されてしまいます。
(parquet...
Glueのwrite_dynamic_frame.from_optionsでpartitionを分けると出力されたデータからpartitionに使用した項目が除外されます。これを残す方法はありますでしょうか?
visual editor でなくcustom transformでコードを記載する必要がありますか?
東京リージョンにてAWS①と②の2つのAWSアカウントを使用しており、AWS①は毎日1回13時30分ごろに①が保有するS3に対象ファイルを格納した事をS3の通知機能を利用してAWS②に通知を行っている。②のevent bridgeがこの通知を検知してGlueのワークフローを起動するように設定している。
起動したGlue JOBにて処理日確認の機能を入れており、①から連携された通知のログストリームに...
connectionを利用してRDSに接続している(SGはconnectionとRDSともに同じ、private subnet内)GlueJobを起動したいのですが、以下のエラーが出てしまいます。おそらくジョブが存在しないと怒られています。
```
{
"details": {
"cause": "Failed to start job run due to missin...
S3にあるデータをGlueのDBを使用して、Athenaで検索を行いたいのですが、S3とGlueを接続するにはVPCエンドポイントによる接続が必要になりますか?
Glue jobをStepfunctionsから実行する際、2024年11月9日02:08:52(JST)にFile already existsが発生しました。
こちらの事象の原因がわからず、ご教授頂ければ幸いです。
発生は2024年11月9日のみで、他の実行は同様のエラーが発生せず、再現性がない状態です。
エラーメッセージに以下の記載がありますが、該当jobで出力されるcsv
は、他のj...
Glueでデータカタログを使用してRedshiftからデータを取得する場合、VPCーサブネットを経由するためIPを消費します。(IPが割り当てられるためIPが枯渇することがあります)
一方、LambdaからRedshit data APIを使用してクエリを使用する際はVPCの設定が必要ありません。IPの割り当ても必要としないようです。
この違いはどこにあるのでしょうか?
CrawlerでOracleデータベースのDataCatalogを作成する際、
スキーマの指定が出来ません。
仮に同一インスタンス内にある複数のスキーマで
物理名が同じテーブルが複数あった場合、
正しくDataCatalogは作成されるのでしょうか。
また上記の状態の場合、
特定スキーマに定義されているテーブルを指定して、
Crawlerを作成し、DataCatalogを作成する事は可能でしょ...
タイトルの通りです。
まず、前提の状況として、redshiftはprivate subnetに存在しています。
クエリエディタv2で、きちんと動作しています。
また、quick sightへの取り込みもできてる状態です。
やりたいこととしては、redshiftのデータカタログを作成した上で、それをathenaでクエリするということです。
なお、s3をソースにしたデータカタログについてはathe...