宫水三叶的刷题日记

V1

2022/11/22阅读:16主题:全栈蓝

【综合笔试题】难度 3.5/5,常见序列 DP 题目及其优化思路

题目描述

这是 LeetCode 上的 472. 连接词 ,难度为 困难

Tag : 「字符串哈希」、「序列 DP」

给你一个 不含重复 单词的字符串数组 words ,请你找出并返回 words 中的所有 连接词 。

连接词 定义为:一个完全由给定数组中的至少两个较短单词组成的字符串。

示例 1:

输入:words = ["cat","cats","catsdogcats","dog","dogcatsdog","hippopotamuses","rat","ratcatdogcat"]

输出:["catsdogcats","dogcatsdog","ratcatdogcat"]

解释:"catsdogcats" 由 "cats""dog" 和 "cats" 组成; 
     "dogcatsdog" 由 "dog""cats" 和 "dog" 组成; 
     "ratcatdogcat" 由 "rat""cat""dog" 和 "cat" 组成。

示例 2:

输入:words = ["cat","dog","catdog"]

输出:["catdog"]

提示:

  • 仅由小写字母组成

序列 DP + 字符串哈希

给定数组 ,先考虑如何判断某个 是否为「连接词」。

为了方便,我们称组成 s 的每个连接部分为 item

举个 🌰,例如 s = abc,其可能的 item 组合为 abc

判断单个字符串是否为连接词可使用动态规划求解:定义 为考虑 s 的前 个字符(令下标从 开始),能够切分出的最大 item 数的个数。

这里之所以采用「记录 为最大分割 item 数(int 类型动规数组)」,而不是「记录 为是否可由多个 item 组成(bool 类型动规数组)」,是因为每个 至少可由自身组成,采用 bool 记录状态的话,最终 必然为 True,需要额外处理最后一个状态,干脆记录最大分割数量好了。此时如果 s 为「连接词」必然有

不失一般性的考虑 该如何转移:假设 可由 转移而来(其中 ),那么能够转移的充要条件为 且子串 出现过

其中枚举 的复杂度已经去到 了,如果常规通过 HashMap 等数据结构判断某个字符串是否存在,执行哈希函数时需要对字符进行遍历,整体复杂度去到了 ,会 TLE

我们通过「字符串哈希」方式来优化判断某个子串是否存在于 中。

具体的,在判断每个 是否为为连接词前,先对 进行遍历,预处理每个 的哈希值,并存入 HashSet 中,这样我们将「判断某个子串是否存在于 」的问题转化为「判断某个数值是否存在于 Set 当中」。

又由于 我们在计算某个子串 s 的哈希值时,是从前往后处理每一位的 ,因此在转移 时,我们期望能够从前往后处理子串,这是常规的从 范围内找可转移点 无法做到的

所以 我们调整转移逻辑为:从 出发,枚举范围 ,找到可由 所能更新的状态 ,并尝试使用 来更新 。转移方程为:

当然,能够转移的前提条件为 为有效值,且子串 出现过。

一些细节:为了方便,我们定义 为无效状态; 另外由于字符串哈希会产生哈希碰撞,这里在计算哈希值的时候,修改了一下哈希计算方式(额外增加了一个 OFFSET),当时的目的是想在电脑没电前 AC,而另一个更加稳妥的方式是使用双哈希,或是干脆记录某个哈希值对应了哪些字符串。

代码:

class Solution {
    Set<Long> set = new HashSet<>();
    int P = 131, OFFSET = 128;
    public List<String> findAllConcatenatedWordsInADict(String[] words) {
        for (String s : words) {
            long hash = 0;
            for (char c : s.toCharArray()) hash = hash * P + (c - 'a') + OFFSET;
            set.add(hash);
        }
        List<String> ans = new ArrayList<>();
        for (String s : words) {
            if (check(s)) ans.add(s);
        }
        return ans;
    }
    boolean check(String s) {
        int n = s.length();
        int[] f = new int[n + 1];
        Arrays.fill(f, -1);
        f[0] = 0;
        for (int i = 0; i <= n; i++) {
            if (f[i] == -1continue;
            long cur = 0;
            for (int j = i + 1; j <= n; j++) {
                cur = cur * P + (s.charAt(j - 1) - 'a') + OFFSET;
                if (set.contains(cur)) f[j] = Math.max(f[j], f[i] + 1);
            }
            if (f[n] > 1return true;
        }
        return false;
    }
}
  • 时间复杂度:令 数组长度, ,根据数据范围 最大为 。预处理出 Set 的复杂度为 ;会对所有 执行 check 操作,复杂度为 ,总的计算量最大值为 ,由于存在剪枝,实际上达不到该计算量
  • 空间复杂度:

最后

这是我们「刷穿 LeetCode」系列文章的第 No.472 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。

在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。

为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:https://github.com/SharingSource/LogicStack-LeetCode 。

在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。

更多更全更热门的「笔试/面试」相关资料可访问排版精美的 合集新基地 🎉🎉

分类:

后端

标签:

后端

作者介绍

宫水三叶的刷题日记
V1