Jeffrey Erickson | 高级撰稿人 | 2026 年 1 月 9 日
图形数据库通过揭示人员、地点和事件之间的关系,成为映射、产品推荐和欺诈检测等多种应用场景的宝贵资源。近来,AI 系统更借助图形技术为输出结果增添了更深层次的语境和细微差别。让我们深入了解图形数据库的工作原理,探索如何充分发挥其独特优势。
图形数据库是一种专为存储和查询复杂、相互关联的数据而设计的数据库。其工作原理是将数据存储并表示为节点(或实体)和边(或关系)。这种图形结构表示方式使数据库用户能够运行图形分析,从而帮助他们发现并探索数据实体间的复杂关联。
市场上有多种图形数据库。例如 Neo4j 这类专用图形数据库仅处理图形数据,而 Oracle AI Database 等则属于多模态企业数据库,支持包括但不限于图形数据在内的多种数据模型。与将数据存储在表中并通过连接建立关系的传统关系数据库不同,图形数据库将这些关系存储为数据库中的基本元素,用户可直接使用 Cypher、Gremlin、PGQL 和 SQL 等语言进行查询和探索。
当需要揭示数据实体之间的复杂动态关系时,图形数据库便是理想选择。这解释了其在路由物流系统(需综合多种因素规划理想路线)和社交媒体网络(需了解用户、群组和兴趣间的复杂关联以实现精准推荐)等场景的广泛应用。此外,随着 Graph RAG 架构的普及,AI 系统正借助图形数据库实现更及时、相关且细致的输出。
关键要点
图形数据库通过图形模型来表示数据中的关系。它们允许用户执行所谓的“遍历查询”,本质上是在数据集中查找各数据点之间的关联。随后,数据库运用图形算法识别模式、路径、社区、影响者、单点故障和其他关系。图形的强大之处在于其能将分散的数据源关联起来,即使在海量且多样化的数据集中也能发掘新见解。
图形算法专为分析图形中数据间的关联与行为而设计,能够揭示其他方法难以察觉甚至无法发现的联系。例如,图形算法可以识别哪些个人或项目与社交网络或业务流程中的其他人最相关,并且可以梳理连接个人或相关交易的社区、异常、常见模式和路径。
为了获取这些洞察,算法会探索顶点(即数据集中实体的数据点)之间的路径与距离,并分析其重要性与聚类特征。在判断重要性时,算法通常会查看入边、相邻顶点的重要性以及其他指标。图形数据库将这些关联关系与节点本身一起存储,实现关联数据的快速导航和检索。图形数据库还具有高度灵活的模式架构,能够随着关系变化而动态调整数据模型。
图形数据库将信息存储为节点网络,节点代表实体(如账户或交易),边则表示连接节点的关系。查询数据库时,它通过查询这些预定义的边从一个节点跳转到另一个节点,从而在数据中发现模式和路径。
下图展示了图形数据库实际应用的简单案例。该图以可视化形式呈现了经典派对游戏“Six Degrees of Kevin Bacon”。该游戏旨在通过共同参演的电影链条,建立 Bacon 与其他演员之间的关联。这种对关系联结的侧重,使其成为演示图形分析技术的理想范例。
假设数据集中包含两类节点:Bacon 演艺生涯中的所有影片,以及这些影片中的所有演员。然后,使用图形运行查询,在 Bacon 与布偶秀的 Miss Piggy 之间建立联系。结果如下:
在这一示例中,可用节点(顶点)既是演员也是电影,关系(边)则是“出演”状态。在此基础上,查询将返回以下结果:
图形数据库可以查询多种关系,例如:
当然,与大多数图形分析应用相比,这个示例比较有趣。但这种方法几乎适用于所有数据 — 在任何情况下,大量记录都可以显示出自然联系。图形分析最常见的应用包括社交和通信网络分析、网站流量和使用情况分析,以及金融交易和账户分析。
创建图结构时,需先定义数据模型以识别节点与边,随后通过查询语言(如 SQL 或 Oracle 的 PGQL)或开源工具(如 Cypher 或 Gremlin)将数据插入图形数据库中。
数据库通过支持遍历图形数据的算法实现图分析,例如广度优先搜索 (BFS) 和深度优先搜索 (DFS)。此外,图形数据库通常内置图形分析功能,如中心性度量和社区检测。部分数据库允许用户快速执行操作,如删除、分组、扩展和聚焦顶点和边,从而修改可视化效果并探索复杂图形数据中的关系。
由于图形数据库强调数据点之间的关系,因此它们能促进对复杂关系的有效分析,并且可以更省力地推动更深入的洞察。RAG 的优势还包括了:
快速了解人员、地点、事件、资金及其他各类数据点之间的关系和关联,对众多商业活动具有至关重要的意义。为阐明其重要性,让我们通过几个实例来了解。
图形数据库广泛应用于多个行业领域,其共通点在于对数据点间关联关系的高度重视。典型应用场景包括:
社交媒体分析:社交网络是理想的应用场景,因其包含大量节点(用户账户)和多维度连接(多向互动)。通过图形分析可确定以下因素:用户有多活跃?(即节点数)。哪些用户影响力最大?(即连接密度)。哪些用户的双向互动最多?(即连接方向和密度)。但是,如果被僵尸程序扭曲了,这些信息就毫无意义。
一般来说,社交媒体网络会倾尽全力来清除僵尸程序账户,避免整体用户体验受到影响。对此,图形分析可以有效识别和过滤僵尸程序。在实际应用场景中,Oracle 团队曾使用 Oracle Marketing Cloud 来评估社交媒体广告的效果和牵引力,尤其是识别僵尸程序。这些僵尸程序一般会通过转发来人为提升目标账户的知名度。通过简单模式分析,可揭示转发次数与邻接节点连接密度。与背后有僵尸程序作祟的账户相比,自然热门账户具有不同的邻居关系。
下图所示为自然热门账户。
下图所示为僵尸程序驱动的账户行为。
图形分析技术一旦区分出自然模式与机器人模式,要过滤这些程序就非常简单。当然,我们还能进一步深挖僵尸程序与被转发账户之间的关联。为了验证这一僵尸程序检测流程是否准确,一个月后对标记账户进行检查,结果如下:
高达 91.2% 的受惩罚账户比例,充分证明了模式识别的准确性。图形分析可以快速识别复杂模式,而标准的表格数据库要花费更多时间才能实现类似结果。
跟踪信用卡欺诈:图形数据库已成为金融行业检测欺诈行为的强大工具。在信用卡领域,尽管反欺诈技术一直在进步,例如在卡片中嵌入芯片,但仍然无法避免各种各样的欺诈行为。例如,读卡机侧录器(常见于未安装芯片卡读卡器的场所)可以通过磁条来窃取信息,而一旦这些信息被恶意收集和存储起来,就可以加载到伪造卡上来购物或取款。
模式识别通常是欺诈检测的第一道防线。具体来说,就是基于位置、频率、商店类型以及与客户档案契合的其他因素来识别客户的预期购买模式,当发生反常的行为时,例如某客户大部分时间都在旧金山湾区,却突然深夜在佛罗里达州购物,则将其标记为潜在欺诈。图形分析技术擅长建立节点间的关联模式,大大降低了所需的计算需求。在此场景中,节点类别被定义为账户(持卡人)、消费地点、消费类别、交易记录及终端设备。自然行为模式非常易于识别,例如在特定月份中一个客户可以:
欺诈检测通常离不开机器学习,但图形分析可以创建一个更准确、更高效的流程。通过聚焦关联关系,其分析结果已成为识别并标记欺诈记录的有效预测指标。
跟踪洗钱活动:图形数据库也能应对更复杂的欺诈行为。从概念上讲,洗钱很简单:非法资金四处流通,与合法资金混合,然后变成硬资产。更具体地说,循环资金转移是指犯罪分子将大量欺诈所得资金转入自身账户,但通过在“正常”账户间进行冗长复杂的合法转账来掩盖痕迹。这些账户通常使用合成身份注册,且信息高度相似。这使得图形分析成为揭露欺诈资金来源的理想工具。为了简化欺诈检测流程,金融机构可基于账户间交易构建图形。图形建立后,通过简单查询即可识别所有存在账户互转资金且信息(如电子邮箱、地址、电话号码)相似的客户群体。
在过去十年里,随着计算能力和大数据的增长,图形数据库和图形技术也在不断发展。越来越多的事实表明,它们将成为分析复杂数据关系的重要工具。如今,各种企业和组织不断推进数据和分析功能发展,而图形数据库支持通过日益复杂的方式获取洞察,是当下及未来企业成功的必要装备。
图形数据库有两种常用模型:属性图和 RDF 图,后者通常也被称为知识图谱。选择适合的模型时,可以把握一个原则:属性图侧重分析和查询功能,而 RDF 图则更注重数据集成功能。这两种图形均是由一系列点(顶点)以及这些点之间的连接(边)构成的集合。知识图谱能够呈现图形数据中已识别关系的语义和上下文,渐渐成为人工智能领域的重要应用。
属性图:属性图用于对数据之间的关系进行建模,能够基于这些关系进行查询和数据分析。属性图具有顶点(包含有关主题的详细信息)和边(表示顶点之间的关系)。顶点和边可以具有相关联的属性。
在本示例中,将一组同事及其关系表示为属性图。我们展示了同事们如何合作,以及他们之间存在的矛盾。我们还可标注这些同事的属性,例如其职位、居住城市、是否远程办公以及部门信息。
属性图高度灵活性,被广泛应用于金融、制造、公共安全和零售等多个行业领域。
RDF 图:RDF 图(RDF 即资源描述框架)符合一系列 W3C(万维网联盟)标准,旨在表示各种语句,适合用于表示复杂的元数据和主数据。它们通常用于关联数据、数据集成和知识图谱。它们可以表示域中的复杂概念,也可以提供丰富的语义和数据推断。
在 RDF 模型中,语句由三个元素表示:一条边连接两个顶点,反映语句的主语、谓语和宾语 — 叫做 RDF 三元组。统一资源标识符 (Uniform Resource Identifier, URI) 用于标识每个顶点和边。RDF 模型支持通过定义明确的语义以标准格式发布数据,从而实现信息交换。政府统计机构、制药公司和医疗机构现已广泛采用 RDF 图。
RDF 图正日益成为智能应用的基础支撑技术,受到广泛青睐。许多大语言模型的训练已采用基于公共数据集的 RDF 图表示,例如 DBpedia 开放知识图谱。
Oracle 可帮助您轻松采用图形技术。Oracle AI Database 和 Oracle Autonomous AI Database 包含一个集成的图形数据库和图形分析引擎,支持用户使用图形算法、模式匹配查询和可视化技术,深入挖掘数据洞察。Oracle 融合数据库中包含图形数据库,基于一个现代融合数据库引擎满足多模型、多工作负载和多租户需求。Oracle Graph 在单一数据库中同时支持属性图和 RDF 图,并通过 SQL 实现图形分析。
尽管所有图形数据库都宣称具备高性能,但 Oracle 的图形数据库不仅在查询性能和算法方面均表现出色,还与 Oracle AI Database 紧密集成。开发人员可以轻松地向现有应用添加图形分析,利用数据库默认提供的可伸缩性、一致性、恢复、访问控制和安全性。Oracle AI Database 是企业级图形数据库的理想选择。
当需要深入了解数据集中人物、地点、事件及对象间的关联关系时,图形数据库无疑是理想工具。这一点在全新 AI 系统对该技术的广泛应用中体现得尤为明显。通过将数据视为节点和边,图形数据库使 AI 系统能够更高效地遍历和分析这些关联,从而获得更深入的洞察并做出更精准的决策。随着 AI 和 AI agent 在未来数年内于更多企业应用场景中占据核心地位,图形数据库必将持续大放异彩。
什么是运行资源密集型查询的理想平台?当然是超大规模云技术平台,因为它具备所需的性能和 AI 功能,助您充分挖掘复杂互连数据的价值。
图形数据库有什么用途?
图形数据库通过将数据点表示为节点和边来存储和查询数据,从而揭示数据中的模式和关系。因此,它们在处理高度关联的数据方面表现出色,适用于社交网络、推荐系统和欺诈检测等应用场景。
图形数据库能否用于 AI?
图形数据库常被用于 AI 应用,其优势在于能高效查询复杂互连数据中的关联关系。图形数据库既能赋能 AI 推荐系统,又能构建知识图谱,通过语义洞察提升 AI 模型对文本及其他内容的理解能力。
图形数据库与关系数据库是否相同?
图形数据库与关系数据库在数据关系存储管理方式上存在差异。关系数据库通过表结构和外键建立数据实体间的关联,处理深度关联数据时可能导致复杂的连接操作。相比之下,图形数据库将数据视为节点和边,能更高效地遍历和查询关系,因此特别适用于社交媒体、零售推荐引擎、欺诈检测系统等涉及复杂高度关联数据的应用场景。
注:为免疑义,本网页所用以下术语专指以下含义: