在2024 AWS re:Invent大会上,亚马逊宣布推出新一代 Amazon SageMaker,可满足客户数据、分析及人工智能需求的核心平台。Amazon SageMaker集成了广泛应用的AWS机器学习(ML)和分析功能,通过内置的治理功能统一对工具和数据的访问,解决了利用组织数据进行分析和人工智能应用时面临的难题。它使团队能够安全地发现、准备数据资产并开展协作,通过单一的操作体验构建分析和人工智能应用程序,从而加快从数据到价值实现的进程。
下一代Amazon SageMaker的核心是Amazon SageMaker Unified Studio,这是一个单一的数据和人工智能开发环境。在这个环境中,用户几乎可以在任何用例场景下,定位并访问组织内的数据,同时使用最适合任务的工具对数据进行处理。
SageMaker Unified Studio整合了现有AWS分析以及人工智能/机器学习服务的功能与工具,其中包括Amazon EMR、AWS Glue、Amazon Athena、Amazon Redshift、Amazon Bedrock和 Amazon SageMaker AI。
在这个统一工作室中,用户可以发现整个组织的数据和人工智能资产,随后在项目中开展协作,安全地构建和共享分析及人工智能产物,其中涵盖数据、模型以及生成式人工智能应用程序。借助Amazon SageMaker Catalog,SageMaker Unified Studio具备了包括细粒度访问控制在内的内置治理功能,助力您满足整个数据资产的企业安全要求。
Amazon SageMaker Lakehouse为用户数据提供统一访问服务,这是一个基于Apache Iceberg 开放标准构建的统一、开放且安全的数据湖仓。无论用户的数据存储在Amazon Simple Storage Service(Amazon S3)数据湖、Redshift数据仓库,还是第三方和联合数据源中,都能从单一位置访问这些数据,并将其与兼容Iceberg的引擎和工具配合使用。
此外,SageMaker Lakehouse目前已与Amazon S3 Tables集成,后者是首个原生支持Apache Iceberg的云对象存储。因此,用户可以使用SageMaker Lakehouse,在SageMaker Unified Studio 中通过各种分析引擎,以及诸如Apache Spark和PyIceberg等兼容Iceberg的引擎,高效创建、查询和处理S3表。