行业分享丨Data+LLM:AI 在智能制造数字化转型中的应用

导读

随着数字化转型在制造企业中的推广力度不断加大,越来越多的制造企业逐渐认识到数据在企业中所发挥的作用,并开始尝试利用数据科学来帮助企业降低成本、提高效率。最近几年的推广过程中,我们有一个非常显著的感受,过去当我们向客户介 AI 时,客户通常会表示认可其价值,但也提到由于各种问题,缺乏数据,或没有找到合适的应用场景。然而,在最近两年间,当我们向客户介 AI 时,大部分客户的反应转变为积极探寻企业内部是否有适合的场景可以应用,并提出是否可以通过 POC 来评估效果。此外,越来越多的客户主动联系我们,询问公司是否有相关的 AI 产品,并表达了希望通过这些产品开展数字化转型项目的意愿。这反映了当 AI 在制造企业中应用的趋势、/span>


今天的介绍会围绕下面几点展开9/span>

1. 数据在制造业中的场景和挑戗/span>

2. AI 案例分享

3. LLM 在企业应用的探索


分享嘉宾|赵 Altair澳汰 数据分析高级应用工程帇/span>

编辑整理|马同学

内容校对|李瑵/span>

出品社区|DataFun


01

数据在制造业中的场景和挑戗/span>


数据在制造业中的应用场景众多,从产品设计到生产制造、设备维护,以及产品的售前、售后中都有相关应用场景。下图中列出了八类典型场景。例如,在制造企业中,各类设备普遍存在,如何实施预测性维护以减少停机时间成为关键问题之一。在产品测试方面,可以利用机器学习模型部分替代实验,从而节省测试时间和成本。此外,还有对产品质量问题的根因分析,以及传感器数据异常检测等场景。这里不再一一详述每个场景的具体内容、/span>


083156_967651_jswz.png


数据在制造业的应用所面临的挑战相较于消费互联网或金融行业更为严峻、/span>


首先,制造业的数据具有高度的多样性和异构性。与互联网企业通过简单添加几行代码设置一些埋点即可轻松获取数据不同,制造业中的每条生产线设备各异,供应商不同,数据接口也不统一,这使得数据收集成为一项艰巨的任务。当然目前大多数制造企业已经建立了数据中台或数据仓库,解决了大部分数据采集的问题、/span>


其次,制造业从业人员大多为传统学科工程师,缺乏数据专业背景。虽然他们是行业专家,对业务问题非常熟悉,但在将业务问题转化为数据问题时,中间还是存在一定的断层、/span>


第三,数据安全性是另一大挑战。制造企业需要挖掘的数据通常涉及企业的核心机密,如配方和生产工艺等敏感信息,因此他们往往不愿意将这些数据提供给第三方公司进行分析、/span>


最后,制造业场景难以复制。例如,在一家企业成功实施节能减排项目后,当尝试在另一家企业推广时,由于设备差异等因素,之前建立的模型和数据分析结果可能无法直接复用,需要从头开始。这种场景的高度定制化特性增加了项目的复杂性和成本、/span>


083243_771776_jswz.png


因此在制造企业内部推进数字化转型项目时,乙方公司需要提供一个完整的数据平台,来解决上述挑战、/span>


首先是集成多源异构的数据,这一步骤大部分企业的数据中台已具备相应能力、/span>


其次,平台需提供制造企业所欠缺的数据科学能力,通过简单易用的软件工具快速培训企业内部的业务专家,使他们能够自行操作,而无需将数据外发给第三方公司进行分析。这是针对前面提到的第二和第三项挑战、/span>


第四,针对制造企业内部应用场景繁多的情况,只有当企业自身的专家掌握了数据科学的能力,并借助平台的支持,才能迅速实现数据应用的构建、/span>


下图展示的是 Altair RapidMiner 企业级人工智能平台的架构图。该平台分为两层:底层是数据编织平台,支持用户集成来自各种来源的数据,并配备了一个高性能自研图数据库,用于大数据的存储和查询。在数据编织平台之上,是全可视化操作的机器学习平台,方便用户进行建模操作、/span>


083325_076367_jswz.png


以下是数据编制的流程图,该流程分为四个步骤:数据加载、模型构建、模型融合和最终的数据访问。我们能够迅速将企业内部的结构化数据转换为知识图谱,并存储于图数据库中。接下来,企业内部大模型能够非常方便的利用知识图谱中的数据作为外挂数据,实现大模型对企业内部数据的有效利用和快速访问,为企业提供强有力的支持、/span>


083350_911009_jswz.png

我们的机器学习平台在 2024 6 月的 Gartner 数据科学和机器学习魔力象限中,位于领导者象限。这一成绩体现了我们在该领域的卓越表现和领先地位、/span>


02

AI 案例分享


接下来,将分享过去一两年中为制造业企业用户落地的一 AI 应用案例、/span>


1. 行人头碰损伤预测

第一个案例是行人头碰损伤预测,这一应用与模拟仿真业务紧密结合。在汽车上市前,需要进行多种碰撞测试,包括行人头部、大腿和小腿的碰撞实验。我们通过AI技术,能够更精确地预测这些碰撞对行人的潜在损伤。以下是三张图示,分别展示了头部碰撞、大腿碰撞和小腿碰撞的模拟情景。这些图示有助于进一步说明该应用的具体实施方式、/span>


083439_416519_jswz.png


其中,头部碰撞是这三个场景中最为关键的实验。右侧展示了一张汽车前引擎盖的图示。首先,我们将前引擎盖划分为多个区域,然后测试当行人的头部碰撞到这些区域时所受到的伤害值。在右下角有一张评分表,如果某区域的伤害值超 1,700,则该区域会被标记为红色,并且评分为 0、/span>


完成对所有区域的碰撞测试后,我们会对整个引擎盖进行综合评价,以确定车辆是否符合行人头部碰撞的标准。如果不符合标准,则需要重新设计引擎盖或调整发动机舱内部布局,然后再次进行实验,直至满足要求为止,确保车辆可以正常上市销售。这一过程确保了汽车在安全性方面的高标准、/span>


在传统方法中,首先使用模拟仿真软件生成一个模拟人头部的椭圆形物体。对于儿童,该物体的重量设置 3.5 公斤;对于成人,则设置为 4.5 公斤。该物体将以 35 公里每小时的速度撞击汽车前引擎盖。右侧展示的是在模拟仿真软件中进行仿真的动画示例,显示头部不断碰撞到不同区域,并计算所受到的伤害值。这一过程通常需要两到四周才能完成整个工作流程、/span>


部分客户希望利用其历史上的车型模拟仿真数据构建机器学习模型,以便在新车辆设计时能够快速预测头部损伤标准(HIC)值,而无需等待两到四周的模拟仿真结果。通过机器学习模型,可以在大约三到五秒内获得不同区域的 HIC 值,从而快速迭代设计。当然,前提是预测出 HIC 值与实际情况之间的误差在可接受范围内、/span>


我们使用的模型基于以下参数构建:例如引擎盖的长度、宽度、角度、厚度及其材料属性(如屈服强度和延伸率)。关键参数包括引擎盖外层和内层之间的间隙,以及引擎盖内部的发动机、电池或其他刚性零件的位置。如果引擎盖与这些刚性点之间的间隙较小,则撞击该区域时的伤害值会显著增加,这也是一个重要的考量因素、/span>


提取上述参数作为模型输入变量,并将历史上模拟仿真计算出的各区 HIC 值作为输出变量,以此构建我们的机器学习模型。这样可以有效提升设计效率和安全性评估的准确性、/span>


083528_856014_jswz.png


接下来将展示如何 RapidMiner 平台中,利用已提取的仿真数据,通过拖拽方式构建机器学习流程、/span>


首先进行数据质量检验,包括多重共线性检验和对齐视图等步骤。然后选择我们要预测的目标变量,即 HIC 值,并按 7:3 的比例拆分训练集和测试集。在此基础上,我们应用 XGBoost 算法来拟合数据,并生成模型评价指标、/span>


使用新数据进 HIC 值预测时,同时进行自变量优化。运行流程后,通过模型评价指标可以观察到均方根误差(RMSE)和相对误差(RE)表现良好。此外,我们还检查了实际值与预测值的拟合曲线,发现拟合度非常高。这使得在后续的新车碰撞测试中,可以直接利用该模型快速预 HIC 值、/span>


可以看到,我们构建的模型预测出的 HIC 值相对误差较小,通常保持 10% 以下。这意味着用户可以在一定程度上用我们预测的 HIC 值替代传统的模拟仿真结果,从而迅速获得设计阶段的 HIC 值预测结果、/span>


083608_520775_jswz.png


2. 包装的纸箱抗压预浊/span>

第二个案例涉及为包装行业构建纸箱抗压性能的预测模型。如今,消费者大多通过网络购买各种商品,通常使用瓦楞纸箱进行包装。对于这些瓦楞纸箱而言,关键要素之一是其能够承受多大的压力,尤其是在堆叠过程中,确保内部物品不受损坏、/span>


传统流程为,客户提出具体需求,例如要求瓦楞纸箱尺寸为长 200 毫米、高 150 毫米、宽 300 毫米,并要求其抗压强度达 1500 牛顿。厂商根据以往经验设计纸箱后,需进行实际测试。然而,这种测试不仅耗时,而且如果未能满足客户需求,则需要反复修改设计并重新测试、/span>


鉴于客户拥有大量历史台架测试数据,我们利用这些数据构建了一个预测模型。下图中展示了一张包含历史数据的表格,其中列出了纸箱的长、宽、高以及瓦楞层数、波形类型、厚度、克重等参数,这些参数对瓦楞纸箱的抗压性能有显著影响。基于这些输入变量和历史抗压性数据,我们构建了相应的模型、/span>


例如,当客户提出新的需求,如尺寸为 350 毫米、宽 150 毫米、高 300 毫米,且抗压性能要求达到 1600 牛顿时,我们可以利用该模型快速预测所需的瓦楞层数、波形类型及其他相关参数。如果预测结果未达到 1600 牛顿的要求,我们可以通过调整参数来优化设计。之后,再通过实验验证模型的预测结果,从而节省客户的台架测试时间和成本、/span>


这一案例展示了如何利用历史数据和机器学习模型,在设计阶段快速预测和优化瓦楞纸箱的抗压性能,减少实际测试的需求,提高设计效率、/span>


083710_090712_jswz.png


3. 节能减排

第三个案例是帮助某制造企业实现节能减排。企业面临高昂的电力消耗,希望通过应用数据挖掘和机器学习算法来制定合理的节能措施、/span>


客户需求为根据生产量调整冷水机的运行策略,当生产量大时,多开,反之则少开。首先要根据排产量计算出所需的制冷量,再根据冷水机的能耗曲线,制定出不同冷水机的运行策略、/span>


用户提供的冷水机数据包括:进出水温度、能耗、天气温度、产能,以及冷水机的能效曲线等。基于这些数据,构建了预测模型,根据预测结果即可制定冷水机的运行策略。这样在不增加硬件和系统改造的情况下,每年可以帮助用户节省 10% 的电耗、/span>


4. 客诉风险预测

第四个案例是帮助客户减少客诉。客户业务为儿童牙齿矫正,部分儿童在佩戴矫正器后会经历疼痛和不适,继而进行投诉。客户希望利 AI 技术,基于诊断阶段 CT 检测报告数据,预测可能出现的投诉风险,从而及时调整矫正器,确保患者佩戴舒适、/span>


通过对历史客诉部位与 CT 报告之间的关联进行建模,利用 AI 预测,使上颌舌侧预测正确率达到了 87%,同比客诉下 60%、/span>


5. 质检检浊/span>

下面介绍的案例是使用图像识别技术帮助客户检测生产线上零件表面的缺陷,这一应用广泛存在于制造行业中。我们的软件提供了一套完整的图片标记处理和模型构建流程、/span>


客户可以对图片数据进行标注,例如标识出哪些区域存在针孔、油污或划痕等问题。基于这些标注的图片,我们可以训练出相应的图像识别算法。当有新的零件进入时,该算法能够快速识别图片中的缺陷区域,识别准确率可 99% 以上。通过这种 AI 方式,客户可以高效实现对其零件质量的检测、/span>


083807_605748_jswz.png


03

LLM 在企业应用的探索


下面介绍我们在企业内部应用大型模型所做的一些探索和解决方案、/span>

2022 11 OpenAI 发布了全球首个大型模 ChatGPT 以来,生成式 AI 已成为全球热门话题。大型模型究竟在哪些方面带来了技术上的提升和能力的增强呢?主要有以下三个方向9/span>

  • 大语言的理解和生成能力:在大型语言模型出现之前,对话机器人对自然语言的理解并不完善。基 Transformer 架构的大型模型在这方面取得了显著进展,特别是在高效理解和生成复杂的自然对话语言上表现尤为突出、/span>

  • 处理和理解长依赖距离的上下文信息:这意味着大型模型能够更好地理解对话中更为复杂的概念和想法。它可以捕捉到更长距离的上下文依赖关系,从而更准确地理解用户意图、/span>

  • 多模态处理能力:除了文本数据,大型模型还具备处理语音和图像的能力,并能将不同模态的信息进行整合。这使得它们不仅限于文本处理,还能跨多种数据类型提供综合分析和支?/span>、/span>


083911_476019_jswz.png

接下来介绍企业应用大模型的一些常见方法、/span>


第一个方法是模型的微调,即对大型模型的参数进行重新训练。这可以分为全参数微调和高效微调两种方式。高效微调有许多方法,例 LoRA(Low-Rank Adaptation)方法,可以通过在模型的关键层之间添加旁路,减少所需的训练参数总量。然而,使用企业内部数据对大型模型进行微调仍面临诸多挑战9/span>


计算资源消耗:即使是小规模的微调,也需要大量的计算资源和时间、/span>


回答准确性问题:即使经过微调,大型模型在回答问题时仍可能出现错误,或者看似正确的回答实际上并不符合企业内部数据的真实情况。这种现象被称为“幻觉效应”、/span>


数据滞后性:企业内部的数据不断更新,尤其是订单数据等关键信息。频繁地使用新数据对模型进行微调并不现实。通常情况下,企业每月能够对模型进行一次微调已属难得,这意味着模型中的数据会存在一定的滞后性、/span>


技能要求高:一般制造企业不具备拥有模型微调技能的专业人员,因此这种方法并不适合大多数制造企业、/span>


因此,尽管模型微调能够提升大型模型对企业特定数据的理解和生成能力,但由于计算资源需求大、回答准确性问题、数据滞后性和技能要求高等因素,这种方法在实际应用中面临诸多挑战,并不适合大多数制造企业、/span>企业应根据自身情况选择更为合适的解决方案、/span>


084026_937593_jswz.png

第二种方法是检索增强生成(RAG)方式,这是目前最常用的方法之一。简单来说,这种方法不需要大型模型直接拥有企业内部的数据,而是通过 RAG 方式将数据外挂于模型之外、/span>


具体流程如下9/span>

  • 数据预处理:首先,我们将文本数据进行切片,并将其向量化,构建索引后存储在向量数据库中,以便后续用于问答检索、/span>

  • 用户查询处理:当用户输入查询或问题时,大型模型会在向量数据库中搜索与用户查询最相关的文档片段、/span>

  • 结果汇总与整理:模型会返回最相关的前五个文档片段。基于这些内容,模型进一步汇总和整理信息,最终生成回答以响应用户的查询、/span>


通过这种方式,大模型可以高效地利用外部数据,而无需直接存储和处理企业内部的具体数据。这不仅减少了对计算资源的需求,还提高了回答的准确性和相关性、/span>


084120_263057_jswz.png


RAG(检索增强生成)方法在处理文档数据方面表现出色,但对于结构化表格数据的支持相对不足,尤其是对市面上大多数关系型数据库的支持较为有限。因此,尽管 RAG 在文本处理上表现良好,但在处理结构化数据时存在一定的局限性。而结构化数据往往是企业内部最核心、最有价值的数据、/span>


为了应对大模型在回答结构化数据场景中的挑战,目前有一种称为“Text-to-SQL”的技术。该技术并不是新技术,其主要功能是将用户的自然语言问题转换为针对关系型数据库的查询语句(通常 SQL)。通过这种方法,从数据库中查询回来的数据通常是非常精确且无误的。前提是生成 SQL 查询必须有效,并能够准确获取用户所需的数据。当数据查询返回后,大型模型可以基于这些数据进行总结或归纳,从而精准地回答用户的问题,避免产生任何幻觉问题、/span>


然而,Text-to-SQL 本身也存在一些问题、/span>例如,数据库中的表和字段名称可能不具备业务上的含义。比如,一个字段在业务上被称为“客户”,但在数据库中存储 ID 可能是“dimension_customer”。因此,在将自然语言转换 SQL 查询时,仍需进行语义到数据库字段的转换,这一转换过程的准确性直接影响到查询结果是否符合用户需求、/span>


如果能基于一个本身就包含数据业务语义的数据库进行查询,那么这一转换步骤就可以省去,从而提高查询的精确度。为此,我们使用了一种称为“Text-to-Sparql”的方法。Sparql 是一种用于图数据库查询的语言。我们将企业内部的结构化数据生成知识图谱,并存储于图数据库中。这样,当大型模型对关系型数据进行查询时,就不需要再进行业务语义到字段查询的转换,因为图数据库中的数据已经包含了业务含义、/span>


084212_807240_jswz.png


我们基于大型模型结合图数据库或知识图谱的检索方式,推出了自己的大模型应用——Altair Copilot。以下是 Altair Copilot 在企业内部应用的框架图示、/span>


我们的目标是解决以下问题:首先将企业内部的数据转换为知识图谱,然后使用大型模型对知识图谱中的数据进行查询。这样可以实现对企业内部结构化数据和非结构化数据的有效查询。此外,在某些场景中,我们还可以查询以往构建的机器学习小模型,并调用这些模型以获得对未来数据的预测结果,例如销量预测或其他相关模型的结果、/span>


通过这一架构,Altair Copilot 不仅能够高效处理企业内部的复杂数据,还能结合历史模型的预测能力,为企业提供更加精准和有价值的洞察、/span>


084333_717966_jswz.png


再回到大模型结合知识图谱本身来说,从技术层面上看,大模型和知识图谱是如何结合以回答用户的自然语言问题的呢?我们绘制了一个流程图来展示这一过程、/span>


当用户提出一个问题时,大模型首先会对问题进行自然语言处理,分析出问题中的关键点,包括主体数据及其相互关系。例如,在某个问题中可能涉及供应商(supplier)、分发中心(distribution center)和国家(country)等主体,同时还可能包含一些附加条件,如评分需高于 0.7、/span>


知识图谱在回答这类问题时的核心优势在于其使用自然语言描述数据实体及其关系的能力。参考下图,供应商、国家及其范围等信息是以实体的形式存储在图数据库中的。因此,大模型能够较为简单地将用户的自然语言转换为对知识图谱的查询、/span>


接下来,大模型生成一 Sparql 查询语句,用于图数据库的检索。如果仔细观察这个查询语句,可以看到其中的供应商、国家及范围等元素与用户自然语言描述的内容基本匹配。这种方式显著减少了大模型生 Sparql 查询语句的错误率,使得查询结果更加准确可靠、/span>


一 Sparql 查询完成,返回的结果一定是精确无误的数据。大模型基于这些查询结果,进一步整理和处理上下文信息,最终回答用户的问题。通过这种知识图谱外挂的方式,大模型能够高效生成针对图数据库的精准查询,并有效解决幻觉问题、/span>


084414_538603_jswz.png


最后,我们使用 Altair Copilot 完成了一个结构化数据查询的案例。在底层数据或知识图谱数据中,包含了销售数据(如销量、时间、客户等信息)和产品主数据(如产品的泵表数据,即产品由哪些零件组成)。此外,还加入了物联网传感数据,例如在一个水管演示案例中,水管上的传感器记录了压力和温度等数据、/span>


通过大模型或 AltairCopilot,用户可以对这些数据进行查询。以下是一个简短的演示9/span>


首先,选择底层图数据库中的某个数据集,这里选择的是水管的数据。我们可以询问大模型底层图数据库包含哪些数据类型,例如订单、水管泵表数据或传感器数据。然后,进一步查询特定水管的主数据。例如,查询编号 TA001 的水管的相关主数据,如长度和弯管数量、/span>


接下来,可以继续查询该水管的泵表数据,得知它由两个零件组成。还可以切换到销售订单数据的查询,显示销售订单的明细数据。如果返回的数据量过大,大模型会提示需要进行汇总或选择部分数据展示。我们可以按产品名称汇总,并仅返回 30 条数据、/span>


如果表格形式不够直观,可以直接要求大模型将数据可视化为柱状图。如果发现图表中缺少某些关键信息(如销售数量),可以进一步指示大模型将其添加到图形上、/span>


对于物联网数据,由于其通常包含大量记录,建议先设定限制条件以减少返回的数据量。例如,随机选择 10 个传感器的水 ID。选定特定水管(如 TA0014)后,可以进一步查询其传感器的具体检测数据(如压力和温度),并带上时间戳、/span>


这些传感器数据也可以转换为折线图进行可视化展示、/span>


整个演示展示了基于图数据库或知识图谱结合大模型,如何通过对话方式实现对企业内部结构化数据的查询和可视化。这在很大程度上能够替代现有 BI 报表,满足客户的实时BI需求或实时数据可视化需求。未来,大部 BI 报表可能会被这种对话式的数据查询和可视化方式所取代、/span>


084512_856549_jswz.png


084525_175300_jswz.png

以上就是对企业大模型解决方案的介绍,如果您对 RapidMiner 产品感兴趣,可以扫描二维码,申请试用。我们将有专门人员与您联系,为您提供相关的试用服务。以上就是本次分享的内容,谢谢大家、/span>

澳汰?nbsp; 2025-02-28 | 阅读?7

分类

留言咨询

留言类型

需求简?/p>

联系信息

联系亹/p>

单位名称

电子邮箱

手机叶/p>

图形验证?/p>

点击提交代表您同愎a href="//www.znpla.com/m/service/registrationagreement.html" target="_blank">《用户服务协议《/a>叉a href="//www.znpla.com/m/about/privacy.php" target="_blank">《隐私协议《/a>