在过去几年中,大型语言模型(LLM)作为能够以前所未有的熟练程度理解、生成和操作文本的杰出工具而受到关注。 它们的潜在应用涵盖从会话代理到内容生成和信息检索,有望彻底改变所有行业。 然而,利用这种潜力,同时确保负责任和有效地使用这些模型,取决于法学硕士评估的关键过程。 评估是一项用于衡量法学硕士或生成人工智能服务的输出质量和责任的任务。 评估法学硕士不仅是出于了解模型性能的愿望,也是出于实施负责任的人工智能的需要,以及降低提供错误信息或偏见内容的风险以及最大限度地减少有害、不安全、恶意和不道德行为的产生的需要内容。 此外,评估法学硕士还可以帮助减轻安全风险,特别是在数据迅速篡改的情况下。 对于基于法学硕士的应用程序,识别漏洞并实施保护措施以防止潜在的数据泄露和未经授权的数据操纵至关重要。
通过通过简单的配置和一键式方法提供评估法学硕士的基本工具, 亚马逊SageMaker澄清 LLM 评估能力使客户能够获得上述大部分好处。 有了这些工具,下一个挑战是将 LLM 评估集成到机器学习和操作 (MLOps) 生命周期中,以实现流程的自动化和可扩展性。 在本文中,我们将向您展示如何将 Amazon SageMaker Clarify LLM 评估与 Amazon SageMaker Pipelines 集成,以实现大规模 LLM 评估。 此外,我们在此提供了代码示例 GitHub上 存储库,使用户能够使用 Llama2-7b-f、Falcon-7b 和微调的 Llama2-7b 模型等示例进行大规模并行多模型评估。
谁需要进行LLM评估?
任何训练、微调或只是使用预先训练的 LLM 的人都需要对其进行准确评估,以评估由该 LLM 提供支持的应用程序的行为。 基于这个宗旨,我们可以将需要LLM评估能力的生成式AI用户分为三类,如下图所示:模型提供者、微调者和消费者。
- 基础模型 (FM) 提供商 训练通用模型。 这些模型可用于许多下游任务,例如特征提取或生成内容。 每个经过训练的模型都需要针对许多任务进行基准测试,不仅要评估其性能,还要将其与其他现有模型进行比较,以确定需要改进的领域,最后跟踪该领域的进展。 模型提供者还需要检查是否存在任何偏差,以确保起始数据集的质量及其模型的正确行为。 收集评估数据对于模型提供者至关重要。 此外,必须收集这些数据和指标,以符合即将出台的法规。 ISO 42001 是, 拜登政府行政命令及 欧盟人工智能法案 开发标准、工具和测试,以帮助确保人工智能系统安全、可靠。 例如,欧盟人工智能法案的任务是提供有关哪些数据集用于训练、运行模型所需的计算能力、根据公共/行业标准基准报告模型结果以及共享内部和外部测试结果的信息。
- 型号 微调器 想要解决特定任务(例如情感分类、摘要、问答)以及用于采用特定领域任务的预训练模型。 他们需要模型提供商生成的评估指标来选择正确的预训练模型作为起点。
他们需要使用特定于任务或特定领域的数据集根据所需的用例来评估其微调模型。 通常,他们必须整理和创建自己的私有数据集,因为公开可用的数据集,即使是为特定任务设计的数据集,也可能无法充分捕获其特定用例所需的细微差别。
微调比完整训练更快、更便宜,并且需要更快的部署和测试操作迭代,因为通常会生成许多候选模型。 评估这些模型可以持续改进、校准和调试模型。 请注意,微调者在开发实际应用程序时可以成为自己模型的消费者。 - 型号 消费者 或模型部署者服务和监控生产中的通用或微调模型,旨在通过采用法学硕士来增强其应用程序或服务。 他们面临的第一个挑战是确保所选的法学硕士符合他们的特定需求、成本和绩效期望。 解释和理解模型的输出是一个持续存在的问题,特别是当涉及隐私和数据安全时(例如,审计受监管行业(例如金融部门)的风险和合规性)。 持续的模型评估对于防止偏见或有害内容的传播至关重要。 通过实施强大的监控和评估框架,模型使用者可以主动识别和解决法学硕士中的回归问题,确保这些模型随着时间的推移保持其有效性和可靠性。
如何进行LLM评估
有效的模型评估涉及三个基本组成部分:一个或多个 FM 或微调模型,用于评估输入数据集(提示、对话或常规输入)以及评估逻辑。
为了选择评估模型,必须考虑不同的因素,包括数据特征、问题复杂性、可用的计算资源和期望的结果。 输入数据存储提供训练、微调和测试所选模型所需的数据。 该数据存储结构良好、具有代表性且高质量至关重要,因为模型的性能在很大程度上取决于它所学习的数据。 最后,评估逻辑定义用于评估模型性能的标准和指标。
这三个组件共同构成了一个有凝聚力的框架,确保对机器学习模型进行严格和系统的评估,最终导致明智的决策和模型有效性的改进。
模型评估技术仍然是一个活跃的研究领域。 过去几年,研究人员社区创建了许多公共基准和框架,涵盖广泛的任务和场景,例如 胶, 强力胶, HELM, 百万美元 和 大板凳。 这些基准测试具有排行榜,可用于比较和对比评估的模型。 基准(例如 HELM)还旨在评估准确性度量之外的指标,例如精度或 F1 分数。 HELM 基准包括公平性、偏见和毒性指标,这些指标在整体模型评估分数中具有同等重要的意义。
所有这些基准测试都包含一组衡量模型在特定任务上执行情况的指标。 最著名和最常见的指标是 RED (以回忆为导向的 Gisting 评估研究), 布鲁 (双语评估研究),或 流星 (用于评估具有显式排序的翻译的指标)。 这些指标可以作为自动评估的有用工具,提供生成文本和参考文本之间词汇相似性的定量测量。 然而,它们并没有捕捉到类人类语言生成的全部内容,包括语义理解、上下文或风格上的细微差别。 例如,HELM 不提供与特定用例相关的评估详细信息、测试自定义提示的解决方案以及非专家使用的易于解释的结果,因为该过程可能成本高昂、不易扩展且仅适用于特定任务。
此外,实现类人语言生成通常需要结合人机交互来进行定性评估和人类判断,以补充自动化的准确性指标。 人工评估是评估法学硕士输出的一种有价值的方法,但它也可能是主观的并且容易产生偏见,因为不同的人工评估者可能对文本质量有不同的意见和解释。 此外,人工评估可能是资源密集型且成本高昂的,并且可能需要大量的时间和精力。
让我们深入了解 Amazon SageMaker Clarify 如何无缝连接各个点,帮助客户进行彻底的模型评估和选择。
使用 Amazon SageMaker Clarify 进行 LLM 评估
Amazon SageMaker Clarify 通过提供评估 LLM 的框架,帮助客户实现指标自动化,包括但不限于自动化的准确性、稳健性、毒性、刻板印象和事实知识,以及基于人工的评估的风格、连贯性、相关性和评估方法基于 LLM 的服务,例如 Amazon Bedrock。 作为一项完全托管的服务,SageMaker Clarify 简化了 Amazon SageMaker 中开源评估框架的使用。 客户可以根据自己的场景选择相关的评估数据集和指标,并使用自己的提示数据集和评估算法进行扩展。 SageMaker Clarify 以多种格式提供评估结果,以支持 LLM 工作流程中的不同角色。 数据科学家可以使用笔记本、SageMaker 模型卡和 PDF 报告中的 SageMaker Clarify 可视化来分析详细结果。 同时,运营团队可以使用 Amazon SageMaker GroundTruth 来审查和注释 SageMaker Clarify 识别出的高风险项目。 例如,刻板印象、毒性、泄露的 PII 或低准确度。
随后采用注释和强化学习来减轻潜在风险。 对已识别风险的人性化解释可以加快人工审核过程,从而降低成本。 摘要报告为业务利益相关者提供不同模型和版本之间的比较基准,促进明智的决策。
下图显示了评估LLM和基于LLM的服务的框架:
Amazon SageMaker Clarify LLM 评估是 AWS 开发的开源基础模型评估 (FMEval) 库,旨在帮助客户轻松评估 LLM。 所有功能也已合并到 Amazon SageMaker Studio 中,以便为其用户提供 LLM 评估。 在以下部分中,我们将介绍 Amazon SageMaker Clarify LLM 评估功能与 SageMaker Pipelines 的集成,以使用 MLOps 原则实现大规模 LLM 评估。
Amazon SageMaker MLOps 生命周期
正如帖子“使用 Amazon SageMaker 的企业的 MLOps 基础路线图” 描述道,MLOps 是流程、人员和技术的结合,可以有效地生产 ML 用例。
下图展示了端到端的 MLOps 生命周期:
典型的旅程从数据科学家创建概念验证 (PoC) 笔记本开始,以证明 ML 可以解决业务问题。 在整个概念验证 (PoC) 开发过程中,数据科学家负责将业务关键绩效指标 (KPI) 转换为机器学习模型指标,例如精度或误报率,并利用有限的测试数据集来评估这些指标指标。 数据科学家与 ML 工程师合作,将代码从笔记本转移到存储库,使用 Amazon SageMaker Pipelines 创建 ML 管道,该管道连接各种处理步骤和任务,包括预处理、训练、评估和后处理,同时不断整合新的产品数据。 Amazon SageMaker Pipelines 的部署依赖于存储库交互和 CI/CD 管道激活。 ML 管道在模型注册表中维护性能最佳的模型、容器映像、评估结果和状态信息,模型利益相关者在模型注册表中评估性能并根据性能结果和基准决定是否进入生产,然后激活另一个 CI/CD 管道用于暂存和生产部署。 一旦投入生产,ML 消费者通过直接调用或 API 调用,通过应用程序触发的推理来利用模型,并向模型所有者提供反馈循环,以进行持续的性能评估。
Amazon SageMaker Clarify 和 MLOps 集成
在 MLOps 生命周期之后,开源模型的微调者或用户使用 Amazon SageMaker Jumpstart 和 MLOps 服务生产微调模型或 FM,如中所述 使用 Amazon SageMaker JumpStart 预训练模型实施 MLOps 实践。 这导致了基础模型操作 (FMOps) 和 LLM 操作 (LLMOps) 的新领域 FMOps/LLMOps:实施生成式 AI 以及与 MLOps 的差异.
下图显示了端到端的 LLMOps 生命周期:
LLMOps 与 MLOps 相比的主要区别在于模型选择和模型评估涉及不同的流程和指标。 在初始实验阶段,数据科学家(或微调人员)选择将用于特定生成式 AI 用例的 FM。
这通常会导致对多个 FM 进行测试和微调,其中一些可能会产生可比较的结果。 选择模型后,提示工程师负责准备必要的输入数据和预期的评估输出(例如,包含输入数据和查询的输入提示)并定义相似性和毒性等指标。 除了这些指标之外,数据科学家或微调人员还必须验证结果并选择合适的 FM,不仅要根据精确指标,还要根据延迟和成本等其他功能。 然后,他们可以将模型部署到 SageMaker 端点并小规模测试其性能。 虽然实验阶段可能涉及一个简单的过程,但过渡到生产阶段需要客户实现流程自动化并增强解决方案的稳健性。 因此,我们需要深入研究如何自动化评估,使测试人员能够大规模地进行高效评估,并实现模型输入和输出的实时监控。
自动化 FM 评估
Amazon SageMaker Pipelines 可自动执行预处理、FM 微调(可选)和大规模评估的所有阶段。 给定实验期间选定的模型,提示工程师需要通过准备许多提示并将它们存储到称为提示目录的指定存储库来覆盖更大的案例集。 欲了解更多信息,请参阅 FMOps/LLMOps:实施生成式 AI 以及与 MLOps 的差异。 然后,Amazon SageMaker Pipelines 的结构如下:
场景 1 – 评估多个 FM: 在这种情况下,FM 无需微调即可覆盖业务用例。 Amazon SageMaker Pipeline 包含以下步骤:数据预处理、多个 FM 的并行评估、模型比较以及基于准确性和其他属性(例如成本或延迟)的选择、所选模型工件的注册和元数据。
下图说明了此体系结构。
场景 2 – 微调和评估多个 FM:在此场景中,Amazon SageMaker Pipeline 的结构与场景 1 非常相似,但它针对每个 FM 的微调和评估步骤并行运行。 最佳微调模型将被注册到模型注册表中。
下图说明了此体系结构。
场景 3 – 评估多个 FM 和微调 FM:此场景是评估通用 FM 和微调 FM 的组合。 在这种情况下,客户希望检查微调模型是否可以比通用 FM 表现更好。
下图显示了生成的 SageMaker Pipeline 步骤。
请注意,模型注册遵循两种模式:(a) 存储开源模型和工件或 (b) 存储对专有 FM 的引用。 欲了解更多信息,请参阅 FMOps/LLMOps:实施生成式 AI 以及与 MLOps 的差异.
解决方案概述
为了加速您大规模 LLM 评估之旅,我们创建了一个解决方案,使用 Amazon SageMaker Clarify 和新的 Amazon SageMaker Pipelines SDK 来实施场景。 代码示例,包括数据集、源笔记本和 SageMaker Pipelines(步骤和 ML 管道),可在 GitHub上。 为了开发此示例解决方案,我们使用了两个 FM:Llama2 和 Falcon-7B。 在这篇文章中,我们主要关注与评估流程相关的 SageMaker Pipeline 解决方案的关键要素。
评测配置: 为了标准化评估过程,我们创建了一个 YAML 配置文件 (evaluation_config.yaml),其中包含评估过程的必要详细信息,包括数据集、模型以及在评估过程中运行的算法SageMaker Pipeline 的评估步骤。 以下示例说明了配置文件:
pipeline: name: "llm-evaluation-multi-models-hybrid" dataset: dataset_name: "trivia_qa_sampled" input_data_location: "evaluation_dataset_trivia.jsonl" dataset_mime_type: "jsonlines" model_input_key: "question" target_output_key: "answer" models: - name: "llama2-7b-f" model_id: "meta-textgeneration-llama-2-7b-f" model_version: "*" endpoint_name: "llm-eval-meta-textgeneration-llama-2-7b-f" deployment_config: instance_type: "ml.g5.2xlarge" num_instances: 1 evaluation_config: output: '[0].generation.content' content_template: [[{"role":"user", "content": "PROMPT_PLACEHOLDER"}]] inference_parameters: max_new_tokens: 100 top_p: 0.9 temperature: 0.6 custom_attributes: accept_eula: True prompt_template: "$feature" cleanup_endpoint: True - name: "falcon-7b" ... - name: "llama2-7b-finetuned" ... finetuning: train_data_path: "train_dataset" validation_data_path: "val_dataset" parameters: instance_type: "ml.g5.12xlarge" num_instances: 1 epoch: 1 max_input_length: 100 instruction_tuned: True chat_dataset: False ... algorithms: - algorithm: "FactualKnowledge" module: "fmeval.eval_algorithms.factual_knowledge" config: "FactualKnowledgeConfig" target_output_delimiter: "<OR>"
评估步骤: 新的 SageMaker Pipeline SDK 使用户可以使用“@step”Python 装饰器灵活地在 ML 工作流程中定义自定义步骤。 因此,用户需要创建一个基本的Python脚本来进行评估,如下所示:
def evaluation(data_s3_path, endpoint_name, data_config, model_config, algorithm_config, output_data_path,): from fmeval.data_loaders.data_config import DataConfig from fmeval.model_runners.sm_jumpstart_model_runner import JumpStartModelRunner from fmeval.reporting.eval_output_cells import EvalOutputCell from fmeval.constants import MIME_TYPE_JSONLINES s3 = boto3.client("s3") bucket, object_key = parse_s3_url(data_s3_path) s3.download_file(bucket, object_key, "dataset.jsonl") config = DataConfig( dataset_name=data_config["dataset_name"], dataset_uri="dataset.jsonl", dataset_mime_type=MIME_TYPE_JSONLINES, model_input_location=data_config["model_input_key"], target_output_location=data_config["target_output_key"], ) evaluation_config = model_config["evaluation_config"] content_dict = { "inputs": evaluation_config["content_template"], "parameters": evaluation_config["inference_parameters"], } serializer = JSONSerializer() serialized_data = serializer.serialize(content_dict) content_template = serialized_data.replace('"PROMPT_PLACEHOLDER"', "$prompt") print(content_template) js_model_runner = JumpStartModelRunner( endpoint_name=endpoint_name, model_id=model_config["model_id"], model_version=model_config["model_version"], output=evaluation_config["output"], content_template=content_template, custom_attributes="accept_eula=true", ) eval_output_all = [] s3 = boto3.resource("s3") output_bucket, output_index = parse_s3_url(output_data_path) for algorithm in algorithm_config: algorithm_name = algorithm["algorithm"] module = importlib.import_module(algorithm["module"]) algorithm_class = getattr(module, algorithm_name) algorithm_config_class = getattr(module, algorithm["config"]) eval_algo = algorithm_class(algorithm_config_class(target_output_delimiter=algorithm["target_output_delimiter"])) eval_output = eval_algo.evaluate(model=js_model_runner, dataset_config=config, prompt_template=evaluation_config["prompt_template"], save=True,) print(f"eval_output: {eval_output}") eval_output_all.append(eval_output) html = markdown.markdown(str(EvalOutputCell(eval_output[0]))) file_index = (output_index + "/" + model_config["name"] + "_" + eval_algo.eval_name + ".html") s3_object = s3.Object(bucket_name=output_bucket, key=file_index) s3_object.put(Body=html) eval_result = {"model_config": model_config, "eval_output": eval_output_all} print(f"eval_result: {eval_result}") return eval_result
SageMaker 管道: 创建数据预处理、模型部署和模型评估等必要步骤后,用户需要使用 SageMaker Pipeline SDK 将这些步骤链接在一起。 当调用 SageMaker Pipeline 创建 API 时,新的 SDK 通过解释不同步骤之间的依赖关系来自动生成工作流程,如下例所示:
import os
import argparse
from datetime import datetime import sagemaker
from sagemaker.workflow.pipeline import Pipeline
from sagemaker.workflow.function_step import step
from sagemaker.workflow.step_outputs import get_step # Import the necessary steps
from steps.preprocess import preprocess
from steps.evaluation import evaluation
from steps.cleanup import cleanup
from steps.deploy import deploy from lib.utils import ConfigParser
from lib.utils import find_model_by_name if __name__ == "__main__": os.environ["SAGEMAKER_USER_CONFIG_OVERRIDE"] = os.getcwd() sagemaker_session = sagemaker.session.Session() # Define data location either by providing it as an argument or by using the default bucket default_bucket = sagemaker.Session().default_bucket() parser = argparse.ArgumentParser() parser.add_argument("-input-data-path", "--input-data-path", dest="input_data_path", default=f"s3://{default_bucket}/llm-evaluation-at-scale-example", help="The S3 path of the input data",) parser.add_argument("-config", "--config", dest="config", default="", help="The path to .yaml config file",) args = parser.parse_args() # Initialize configuration for data, model, and algorithm if args.config: config = ConfigParser(args.config).get_config() else: config = ConfigParser("pipeline_config.yaml").get_config() evalaution_exec_id = datetime.now().strftime("%Y_%m_%d_%H_%M_%S") pipeline_name = config["pipeline"]["name"] dataset_config = config["dataset"] # Get dataset configuration input_data_path = args.input_data_path + "/" + dataset_config["input_data_location"] output_data_path = (args.input_data_path + "/output_" + pipeline_name + "_" + evalaution_exec_id) print("Data input location:", input_data_path) print("Data output location:", output_data_path) algorithms_config = config["algorithms"] # Get algorithms configuration model_config = find_model_by_name(config["models"], "llama2-7b") model_id = model_config["model_id"] model_version = model_config["model_version"] evaluation_config = model_config["evaluation_config"] endpoint_name = model_config["endpoint_name"] model_deploy_config = model_config["deployment_config"] deploy_instance_type = model_deploy_config["instance_type"] deploy_num_instances = model_deploy_config["num_instances"] # Construct the steps processed_data_path = step(preprocess, name="preprocess")(input_data_path, output_data_path) endpoint_name = step(deploy, name=f"deploy_{model_id}")(model_id, model_version, endpoint_name, deploy_instance_type, deploy_num_instances,) evaluation_results = step(evaluation, name=f"evaluation_{model_id}", keep_alive_period_in_seconds=1200)(processed_data_path, endpoint_name, dataset_config, model_config, algorithms_config, output_data_path,) last_pipeline_step = evaluation_results if model_config["cleanup_endpoint"]: cleanup = step(cleanup, name=f"cleanup_{model_id}")(model_id, endpoint_name) get_step(cleanup).add_depends_on([evaluation_results]) last_pipeline_step = cleanup # Define the SageMaker Pipeline pipeline = Pipeline( name=pipeline_name, steps=[last_pipeline_step], ) # Build and run the Sagemaker Pipeline pipeline.upsert(role_arn=sagemaker.get_execution_role()) # pipeline.upsert(role_arn="arn:aws:iam::<...>:role/service-role/AmazonSageMaker-ExecutionRole-<...>") pipeline.start()
该示例通过预处理初始数据集、部署模型并运行评估来实现对单个FM的评估。 生成的管道有向无环图(DAG)如下图所示。
遵循类似的方法并使用和定制示例 在 SageMaker JumpStart 上微调 LLaMA 2 模型,我们创建了管道来评估微调模型,如下图所示。
通过使用之前的 SageMaker Pipeline 步骤作为“乐高”积木,我们开发了场景 1 和场景 3 的解决方案,如下图所示。 具体来说, GitHub上 存储库使用户能够并行评估多个 FM,或者结合基础模型和微调模型的评估来执行更复杂的评估。
存储库中可用的其他功能包括:
- 动态评估步骤生成: 我们的解决方案根据配置文件动态生成所有必要的评估步骤,使用户能够评估任意数量的模型。 我们扩展了该解决方案,以支持轻松集成新型模型,例如 Hugging Face 或 Amazon Bedrock。
- 防止端点重新部署:如果端点已经就位,我们将跳过部署过程。 这使得用户可以重复使用具有 FM 的端点进行评估,从而节省成本并缩短部署时间。
- 终点清理: 评估完成后,SageMaker Pipeline 停用已部署的端点。 可以扩展此功能以保持最佳模型端点的活动。
- 选型步骤: 我们添加了一个模型选择步骤占位符,它需要最终模型选择的业务逻辑,包括成本或延迟等标准。
- 模型注册步骤:最佳模型可以作为特定模型组的新版本注册到 Amazon SageMaker 模型注册表中。
- 温水池: SageMaker 托管的温池让您可以在作业完成后保留和重用已配置的基础设施,以减少重复工作负载的延迟
下图说明了这些功能和一个多模型评估示例,用户可以使用我们的解决方案轻松动态地创建该示例 GitHub上 库。
我们故意将数据准备保留在范围之外,因为它将在另一篇文章中深入描述,包括提示目录设计、提示模板、提示优化。 有关更多信息和相关组件定义,请参阅 FMOps/LLMOps:实施生成式 AI 以及与 MLOps 的差异.
结论
在本文中,我们重点介绍了如何使用 Amazon SageMaker Clarify LLM 评估功能和 Amazon SageMaker Pipelines 大规模自动化和实施 LLM 评估。 除了理论架构设计之外,我们还有示例代码 GitHub上 存储库(以 Llama2 和 Falcon-7B FM 为特色),使客户能够开发自己的可扩展评估机制。
下图显示了模型评估架构。
在这篇文章中,我们重点关注大规模实施法学硕士评估,如图左侧所示。 将来,我们将重点开发示例,遵循 FM 到生产的端到端生命周期。 FMOps/LLMOps:实施生成式 AI 以及与 MLOps 的差异。 这包括法学硕士服务、监控、输出评级的存储,最终将触发自动重新评估和微调,最后,使用人在环中处理标记数据或提示目录。
关于作者
Sokratis Kartakis 博士 是 Amazon Web Services 的首席机器学习和运营专家解决方案架构师。 Sokratis 致力于通过利用 AWS 服务并塑造其运营模型(即 MLOps/FMOps/LLMOps 基础)以及利用最佳开发实践的转型路线图,帮助企业客户将其机器学习 (ML) 和生成式 AI 解决方案工业化。 他花了 15 年以上的时间在能源、零售、健康、金融、赛车运动等领域发明、设计、领导和实施创新的端到端生产级机器学习和人工智能解决方案。
贾格迪普·辛格·索尼 是荷兰 AWS 的高级合作伙伴解决方案架构师。 他利用对 DevOps、GenAI 和构建工具的热情来帮助系统集成商和技术合作伙伴。 Jagdeep 应用他的应用程序开发和架构背景来推动团队内的创新并推广新技术。
里卡多·加蒂博士 是一位驻意大利的高级初创解决方案架构师。 他是客户的技术顾问,通过选择合适的工具和技术来创新、快速扩展并在几分钟内走向全球,帮助他们发展业务。 他一直对机器学习和生成人工智能充满热情,在整个职业生涯中在不同领域研究和应用这些技术。 他是 AWS 意大利播客“Casa Startup”的主持人和编辑,致力于讲述初创公司创始人的故事和新技术趋势。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/operationalize-llm-evaluation-at-scale-using-amazon-sagemaker-clarify-and-mlops-services/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 100
- 9
- a
- 关于
- 加快
- ACCESS
- 准确
- 实现
- 横过
- 法案
- 活化
- 要积极。
- 无环
- 添加
- 增加
- 另外
- 地址
- 充分
- 管理
- 采用
- 采用
- 进步
- 顾问
- 后
- 驳
- 中介代理
- AI
- 人工智能法
- 人工智能系统
- 瞄准
- 致力
- 算法
- 算法
- 对齐
- 活着
- 所有类型
- 允许
- 已经
- 还
- 时刻
- Amazon
- 亚马逊SageMaker
- 亚马逊SageMaker JumpStart
- Amazon SageMaker管道
- 亚马逊SageMaker Studio
- 亚马逊网络服务
- an
- 分析
- 和
- 另一个
- 回答
- 任何
- API
- 应用领域
- 应用程序开发
- 应用领域
- 应用的
- 适用
- 的途径
- 适当
- 架构
- 保健
- 地区
- 论点
- AS
- 评估
- 评估
- 评定
- 评估
- At
- 审计
- 自动化
- 自动化
- 自动表
- 自动
- 自动化和干细胞工程
- 可使用
- AWS
- b
- 背景
- 基于
- 基本包
- BE
- 因为
- 成为
- 很
- 行为
- 基准
- 标杆
- 基准
- 好处
- 最佳
- 更好
- 之间
- 超越
- 偏见
- 偏
- 偏见
- 吹氣梢
- 都
- 违规
- 宽度
- 带来
- 建立
- 建设者
- 商业
- 但是
- by
- 被称为
- 呼叫
- CAN
- 候选人
- 能力
- 能力
- 捕获
- 牌
- 寻找工作
- 案件
- 例
- 检索目录
- 一定
- 挑战
- 特点
- 便宜
- 查
- 选择
- 分类
- 分类
- 清洁
- 码
- 凝聚力
- 合作
- 组合
- 结合
- 相当常见
- 社体的一部分
- 可比
- 比较
- 相比
- 对照
- 补充
- 完成
- 复杂
- 复杂
- 符合
- 执行
- 元件
- 组件
- 包括
- 计算
- 计算
- 概念
- 关心
- 进行
- 开展
- 行为
- 配置
- 分享链接
- 所连接
- 考虑
- 由
- 建设
- 消费者
- 容器
- 包含
- 内容
- 上下文
- 不断
- 连续
- 对比
- 听起来像对话
- 对话
- 兑换
- 正确
- 价格
- 节约成本
- 昂贵
- 成本
- 外壳
- 创建信息图
- 创建
- 创造
- 创建
- 标准
- 危急
- 关键
- 习俗
- 合作伙伴
- DAG
- data
- 资料准备
- 数据科学家
- 数据安全
- 数据集
- 数据篡改
- 数据集
- 日期时间
- 决定
- 决策
- 决定
- 专用
- 深
- 深潜
- 默认
- 定义
- 定义
- 提供
- 需求
- 依赖
- 依靠
- 部署
- 部署
- 部署
- 部署
- 深度
- 描述
- 指定
- 设计
- 设计
- 设计
- 欲望
- 期望
- 详细
- 详情
- 开发
- 发达
- 发展
- 研发支持
- DevOps的
- 差异
- 不同
- 直接
- 针对
- 潜水
- 不同
- do
- 不会
- 域
- 域名
- 驾驶
- ,我们将参加
- 动态
- e
- 每
- 容易
- 易
- 编辑
- 有效
- 效用
- 高效
- 有效
- 努力
- 或
- 分子
- 其他
- 就业
- enable
- 使
- 使
- 端至端
- 端点
- 端点
- 能源
- 工程师
- 提高
- 确保
- 确保
- 保证
- 企业
- 企业客户
- 企业
- 时代
- 一样
- 特别
- 必要
- 等
- 醚(ETH)
- EU
- 评估
- 评估
- 评估
- 评估
- 甚至
- 终于
- 例子
- 例子
- 执行
- 现有
- 期望
- 预期
- 促进
- 利用
- 延长
- 外部
- 萃取
- f1
- 面部彩妆
- 促进
- 因素
- 事实
- 公平
- 下降
- false
- 著名
- 高效率
- 快
- 专栏
- 特色
- 反馈
- 少数
- 部分
- 数字
- 图
- 文件
- 最后
- 终于
- 金融
- 金融
- 金融部门
- (名字)
- 高度灵活
- 专注焦点
- 重点
- 重点
- 其次
- 以下
- 如下
- 针对
- 申请
- 格式
- 基金会
- Foundations
- 创始人
- 骨架
- 框架
- 频繁
- 止
- 履行
- ,
- 功能
- 功能
- 根本
- 此外
- 未来
- 搜集
- 其他咨询
- 一般用途
- 生成
- 产生
- 产生
- 发电
- 代
- 生成的
- 生成式人工智能
- 得到
- 特定
- 全球
- Go
- 授予
- 图形
- 团队
- 组的
- 成长
- 手
- 有害
- 治理
- 有
- 有
- he
- 健康管理
- 严重
- 帮助
- 帮助
- 帮助
- 高
- 高风险
- 铰链
- 他的
- 保持
- 主持人
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- 人
- i
- IAM
- 确定
- 识别
- 鉴定
- if
- 说明
- 图片
- 实施
- 实施
- 器物
- 进口
- 重要性
- 改进
- 改善
- in
- 包括
- 包括
- 包含
- 成立
- 结合
- 指标
- 行业
- 信息
- 通知
- 基础设施
- 初始
- 创新
- 創新
- 创新
- 输入
- 输入
- 整合
- 积分
- 故意地
- 互动
- 内部
- 成
- 介绍
- 调用
- 涉及
- 参与
- 涉及
- 涉及
- ISO
- IT
- 意大利语
- 意大利
- 项目
- 迭代
- 它的
- 工作
- 旅程
- JPG
- 保持
- 不停
- 键
- 知识
- 语言
- 大
- 大
- (姓氏)
- 最后
- 潜伏
- 铅
- 排行榜
- 领导
- 学习
- 可以学习
- 左
- 让
- 借力
- 自学资料库
- 生命周期
- 喜欢
- 有限
- 友情链接
- 骆驼
- 圖書分館的位置
- 逻辑
- 低
- 机
- 机器学习
- 主要
- 保持
- 维护
- 管理
- 操纵
- 操作
- 手册
- 许多
- 可能..
- 与此同时
- 衡量
- 措施
- 机制
- 元数据
- 方法
- 方法
- 公
- 指标
- 大幅减低
- 分钟
- 误传
- 减轻
- 缓解
- ML
- 多播
- 模型
- 模型
- 模块
- 显示器
- 监控
- 更多
- 最先进的
- 动机
- 赛车
- 许多
- 多
- 必须
- 姓名
- 必要
- 需求
- 需要
- 荷兰
- 全新
- 新技术
- 下页
- 非专家
- 注意
- 笔记本
- 笔记本电脑
- 细微之处
- 数
- of
- 提供
- 经常
- on
- 一旦
- 一
- 正在进行
- 仅由
- 开放源码
- 操作
- 操作
- 运营
- 意见
- 优化
- or
- OS
- 其他名称
- 我们的
- 输出
- 成果
- 结果
- 产量
- 输出
- 优秀
- 超过
- 最划算
- 己
- 业主
- 并行
- 参数
- 特别
- 尤其
- 合伙人
- 伙伴
- 情
- 多情
- 径
- 模式
- 员工
- 演出
- 性能
- 表演
- 施行
- 相
- ii
- 管道
- 地方
- 占位符
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 的PoC
- 播客
- 点
- 池
- 矿池
- 帖子
- 潜力
- 功率
- 供电
- 做法
- 平台精度
- 准备
- 准备
- 存在
- 防止
- 以前
- 小学
- 校长
- 原则
- 隐私
- 私立
- 市场问题
- 程序
- 过程
- 过程
- 处理
- 生产
- 级数
- 突出
- 承诺
- 促进
- 提示
- 证明
- 概念验证
- 传播
- 所有权
- 保护
- 证明
- 提供
- 供应商
- 提供
- 优
- 国家
- 公然
- 目的
- 蟒蛇
- 定性
- 质量
- 量
- 题
- 范围
- 率
- 等级
- 真实
- 真实的世界
- 实时的
- 减少
- 减少
- 减少
- 参考
- 参考
- 在相关机构注册的
- 注册
- 注册处
- 回归
- 定期
- 监管
- 受管制行业
- 法规
- 强化学习
- 有关
- 相关性
- 相应
- 可靠性
- 重复的
- 报告
- 报告
- 业务报告
- 知识库
- 代表
- 必须
- 需要
- 研究
- 研究人员
- 资源密集型
- 资源
- 责任
- 提供品牌战略规划
- 导致
- 成果
- 零售
- 保留
- 回报
- 重用
- 检讨
- 革命性
- 右
- 严格
- 复活
- 风险
- 风险
- 路线图
- 健壮
- 稳健性
- 角色
- 角色
- 运行
- 运行
- 运行
- s
- 安全
- 保障
- sagemaker
- SageMaker管道
- 储
- 可扩展性
- 可扩展性
- 鳞片
- 脚本
- 情景
- 科学家
- 科学家
- 范围
- 得分了
- 脚本
- SDK
- 无缝
- 部分
- 扇形
- 安全
- 保安
- 安全风险
- 选择
- 选
- 选择
- 选择
- 前辈
- 情绪
- 服务
- 服务
- 特色服务
- 服务
- 会议
- 集
- 成型
- Share
- 显示
- 如图
- 作品
- 侧
- 显著
- 类似
- 简化
- 只是
- 自
- 单
- 小
- 方案,
- 解决方案
- 解决
- 一些
- 来源
- 跨度
- 专家
- 具体的
- 特别是
- 花费
- 分期
- 利益相关者
- 标准化
- 标准
- 斯坦福
- 开始
- 启动
- 启动
- Status
- 步
- 步骤
- 仍
- 存储
- 商店
- 故事
- 简单的
- 结构化
- 研究
- 工作室
- 样式
- 后来
- 这样
- 概要
- SUPPORT
- 系统
- 产品
- 剪裁
- 任务
- 任务
- 团队
- 队
- 文案
- 技术
- 技术性
- 技术
- 专业技术
- 模板
- test
- 测试仪
- 测试
- 测试
- 文本
- 比
- 这
- 未来
- 其
- 他们
- 然后
- 理论
- 从而
- 因此
- 博曼
- 他们
- Free Introduction
- 那些
- 三
- 通过
- 始终
- 次
- 至
- 一起
- 工具
- 工具
- 跟踪时
- 培训
- 熟练
- 产品培训
- 火车
- 转型
- 过渡
- 过渡
- 翻译
- 趋势
- 触发
- true
- 可靠
- 二
- 类型
- 普遍
- 最终
- 擅自
- 理解
- 理解
- 史无前例
- 即将上市
- 使用
- 用例
- 用过的
- 有用
- 用户
- 用户
- 使用
- 运用
- 平时
- 利用
- 验证
- 有价值
- 各个
- 版本
- 版本
- 通过
- 重要
- 漏洞
- 想
- 温暖
- we
- 卷筒纸
- Web服务
- 井
- 为
- 什么是
- ,尤其是
- 这
- 而
- WHO
- 宽
- 大范围
- 维基百科上的数据
- 将
- 中
- 也完全不需要
- 工作
- 工作流程
- 加工
- 世界
- 雅姆
- 年
- 产量
- 您
- 您一站式解决方案
- 和风网