【以下的问题经过翻译处理】 我已经使用AWS文档中推荐的创建表命令,创建了一个Athena表,用于分析存储在s3中的ALB日志。我正在对这个表运行一些查询,以从特定的列中检索数据。然而,当我查看分析的数据时,似乎使用在查询中的数据量与日志文件总数据量相同。这些日志文件包含了许多我在查询中没有引用的列。
我认为如果我只从特定的列中检索数据,那么它只会搜索来自那些列的数据,因此在查询中使用的数据应该会更少,但是结果似乎不是这样的?
这里是否有我漏掉的东西?
查询:
SELECT FROM_UNIXTIME(FLOOR(TO_UNIXTIME(parse_datetime(time,'yyyy-MM-dd''T''HH:mm:ss.SSSSSS''Z'))/60)*60) as time, ssl_protocol, count(ssl_protocol) as total FROM alb_logs WHERE ssl_protocol LIKE '%' AND request_verb = 'POST' AND REGEXP_LIKE(request_url, 'https:\/\/myapp.*\/v3\/me\/order.*') AND elb_status_code = 200 AND parse_datetime(time,'yyyy-MM-dd''T''HH:mm:ss.SSSSSS''Z') BETWEEN TIMESTAMP '2021-12-06 12:12:44' AND TIMESTAMP '2022-01-05 12:12:44' GROUP BY 1, ssl_protocol ORDER BY 1 limit 20