博客
关于我
KMP算法
阅读量:666 次
发布时间:2019-03-15

本文共 2347 字,大约阅读时间需要 7 分钟。

KMP 算法:从理论到实践

简介

KMP(Knuth-Morris-Pratt)算法是由 D.E.Knuth、J.E.Morris 和 V.R.Pratt 三位研 comida 将其共同提出的,广泛应用于字符串匹配问题。相较于暴力算法(Brute-Force),KMP 算法在效果上有了显著提升,通过减少主串指针的回溯操作,提高了效率。尽管其时间复杂度仍为 O(n²),但通过引入前缀和后缀匹配的优化,使其在长文本匹配中更具实用性。

原理

KMP 算法的核心在于利用目标字符串的前缀和后缀之间的重叠性质,从而减少不必要的对比操作。其关键步骤包括:

  • 求解最大前缀与后缀匹配长度

    对于给定字符串 s,找到最长的前缀和后缀相同的子字符串。例如,对于字符串 "ababab",最长的前缀和后缀匹配长度为 4("abab")。

  • 利用前缀和后缀匹配减少计算

    通过预先计算前缀和后缀匹配长度,可以在匹配过程中快速定位下一个可能的匹配点,避免逐字符比较。


  • 前缀和后缀匹配的计算

    预处理步骤

    在 KMP 算法中,需要通过以下步骤计算最大前缀和后缀匹配长度:

  • 定义前缀和后缀

    • 前缀是从字符串开头开始到任意位置的子串,且不能是整个字符串本身。
    • 后缀是从任意位置开始到字符串结尾的子串,且也不能是整个字符串本身。
  • 找到最大前缀后缀匹配

    例如,对于字符串 "bbbabbb",最大前缀后缀匹配长度为 3("bbb")。通过逐字符比较,确定相同前缀和后缀的最长长度。

  • 预处理预存匹配长度

    • 在计算过程中记录每个位置的最大匹配长度,形成一个数组 l,其中 l[i] 表示前 i 个字符的最大前缀后缀匹配长度。
  • 动态规划的应用

    KMP 算法在这一步骤中采用类似动态规划的思想,通过递归关系计算 \l[i+1]

    • 如果当前字符匹配,直接将 ` l[i+1] = l[i] + 1 `。
    • 如果当前字符不匹配,查找前缀中次长的匹配部分(即 l[l[i]])。

    通过这种方式,可以快速定位下一个可能的匹配起点。


    提升寻找下一个匹配点的方法

    传统的暴力算法需要逐字符比较,导致时间复杂度为 O(n²)。KMP 算法的改进部分如下:

  • 利用预处理数组 l

    在字符匹配时,使用预处理数组 l 快速定位下一个可能的匹配起点。这避免了重复比较字符,减少了时间开销。

  • KMP 算法的核心逻辑

    function KMP(text, pattern):    n = len(pattern)    lps = [0] * n    for i in 1:n-1:        k = lps[i-1]        while k > 0 and pattern[i] != pattern[k]:            k = lps[k-1]        if pattern[i] == pattern[k]:            lps[i] = k + 1        else:            lps[i] = 0    j = 0  # pattern index    for i in 0: len(text):        if pattern[j] == text[i]:            j += 1        if j == n:            return i - n + 1  # matched at i - n + 1        elif i < n-1:            j = lps[j-1]    return -1

  • 代码实现

    以下是 KMP 算法的实现代码,可供参考:

    def compute_lps_array(pattern):    """计算KMP失败函数(长前缀长后缀)数组"""    n = len(pattern)    lps = [0] * n    for i in range(1, n):        j = lps[i-1]        while j > 0 and pattern[i] != pattern[j]:            j = lps[j-1]        if pattern[i] == pattern[j]:            lps[i] = j + 1        else:            lps[i] = 0    return lpsdef kmp_search(text, pattern):    """执行KMP算法,全局匹配"""    n = len(pattern)    if n == 0:        return -1    lps = compute_lps_array(pattern)    j = 0  # 指针跟踪匹配位置    for i in range(len(text)):        if pattern[j] == text[i]:            j += 1        if j == n:            return i - n + 1  # 匹配在第i - n + 1位置发现        elif i < n - 1:  # 未完全匹配,退回一个位置            j = lps[j-1]    return -1  # 未能找到匹配

    总结

    通过以上分析,我们可以清晰地看出 KMP 算法如何通过预处理和动态规划的思想,将暴力算法的时间复杂度从 O(n²) 降低到 O(n)。在实际应用中,KMP 算法广泛用于文本检索、模式识别等场景,是解决字符串匹配问题的高效解决方案。

    转载地址:http://vwcmz.baihongyu.com/

    你可能感兴趣的文章
    ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
    查看>>
    NHibernate学习[1]
    查看>>
    NHibernate异常:No persister for的解决办法
    查看>>
    NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
    查看>>
    NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
    查看>>
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>
    NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
    查看>>
    NIFI大数据进阶_NIFI监控的强大功能介绍_处理器面板_进程组面板_summary监控_data_provenance事件源---大数据之Nifi工作笔记0025
    查看>>
    NIFI大数据进阶_内嵌ZK模式集群1_搭建过程说明---大数据之Nifi工作笔记0015
    查看>>
    NIFI大数据进阶_外部ZK模式集群1_实际操作搭建NIFI外部ZK模式集群---大数据之Nifi工作笔记0017
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
    查看>>