AC自动机原理及实现
概述 AC自动机算法是一种常见的多串匹配算法。理解本算法需要先理解当模式串只有一个的时候的 …
May all the beauty be blessed.
题目地址:洛谷:【P2375】[NOI2014]动物园 – 洛谷、BZOJ:Problem 3670. — [Noi2014]动物园
近日,园长发现动物园中好吃懒做的动物越来越多了。例如企鹅,只会卖萌向游客要吃的。为了整治动物园的不良风气,让动物们凭自己的真才实学向游客要吃的,园长决定开设算法班,让动物们学习算法。
某天,园长给动物们讲解KMP算法。
园长:“对于一个字符串S,它的长度为L。我们可以在O(L)的时间内,求出一个名为next的数组。有谁预习了next数组的含义吗?”
熊猫:“对于字符串S的前i个字符构成的子串,既是它的后缀又是它的前缀的字符串中(它本身除外),最长的长度记作next[i]。”
园长:“非常好!那你能举个例子吗?”
熊猫:“例S为abcababc,则next[5]=2。因为S的前5个字符为abcab,ab既是它的后缀又是它的前缀,并且找不到一个更长的字符串满足这个性质。同理,还可得出next[1] = next[2] = next[3] = 0,next[4] = next[6] = 1,next[7] = 2,next[8] = 3。”
园长表扬了认真预习的熊猫同学。随后,他详细讲解了如何在O(L)的时间内求出next数组。
下课前,园长提出了一个问题:“KMP算法只能求出next数组。我现在希望求出一个更强大num数组一一对于字符串S的前i个字符构成的子串,既是它的后缀同时又是它的前缀,并且该后缀与该前缀不重叠,将这种字符串的数量记作num[i]。例如S为aaaaa,则num[4] = 2。这是因为S的前4个字符为aaaa,其中a和aa都满足性质‘既是后缀又是前缀’,同时保证这个后缀与这个前缀不重叠。而aaa虽然满足性质‘既是后缀又是前缀’,但遗憾的是这个后缀与这个前缀重叠了,所以不能计算在内。同理,num[1] = 0,num[2] = num[3] = 1,num[5] = 2。”
最后,园长给出了奖励条件,第一个做对的同学奖励巧克力一盒。听了这句话,睡了一节课的企鹅立刻就醒过来了!但企鹅并不会做这道题,于是向参观动物园的你寻求帮助。你能否帮助企鹅写一个程序求出num数组呢?
特别地,为了避免大量的输出,你不需要输出num[i]分别是多少,你只需要输出所有num[i]+1的乘积,对1,000,000,007取模的结果即可。
输入格式:
第1行仅包含一个正整数n ,表示测试数据的组数。随后n行,每行描述一组测试数据。每组测试数据仅含有一个字符串S,S的定义详见题目描述。数据保证S 中仅含小写字母。输入文件中不会包含多余的空行,行末不会存在多余的空格。
输出格式:
包含 n 行,每行描述一组测试数据的答案,答案的顺序应与输入数据的顺序保持一致。对于每组测试数据,仅需要输出一个整数,表示这组测试数据的答案对 1,000,000,007 取模的结果。输出文件中不应包含多余的空行。
输入样例#1:
3 aaaaa ab abcababc
输出样例#1:
36 1 32
测试点编号 约定
1 N ≤ 5, L ≤ 50
2 N ≤ 5, L ≤ 200
3 N ≤ 5, L ≤ 200
4 N ≤ 5, L ≤ 10,000
5 N ≤ 5, L ≤ 10,000
6 N ≤ 5, L ≤ 100,000
7 N ≤ 5, L ≤ 200,000
8 N ≤ 5, L ≤ 500,000
9 N ≤ 5, L ≤ 1,000,000
10 N ≤ 5, L ≤ 1,000,000
参考资料:[省选前题目整理][BZOJ 3670][NOI 2014]动物园(KMP) – CSDN博客、【题解】NOI2014动物园 – Twilight_Sx – 博客园
我们回想一下KMP不加优化的时候的fail数组的意义。它指的是当前位置之前的子串中最长的与某一前缀相同的后缀长度。我们利用这个来找num数组。
num数组指的是不重叠的与某一前缀相同的后缀数量,我们退一步,先不求不重叠,用一个数组cnt表示与某一前缀相同的后缀数量。我们可以把fail数组计算出来以后,利用fail算出cnt的值。
cnt[i] = cnt[fail[i]] + 1
其中cnt[1] = 1。
举个例子:ababdefghabab,abab是整个串的最长相同前后缀,cnt[3]=2,由于abab内部相同的部分a和ab在后面的abab中出现过,因此cnt[13]至少有cnt[3]中这么多,而abab本身也构成了相同前后缀,因此cnt[13]要比cnt[3]多1。
现在我们拿到了这个串的cnt数组,要怎么求num呢?我们考虑cnt数组是通过fail递推而来的,如果说cnt[i]中计入了某个重叠了的前后缀,那么某个j=若干层嵌套fail[i]的cnt[j]就是不重复的答案。这时候回到fail的前后缀长度的意义上,只要这个前后缀的长度的2倍不超过当前串长,答案是不是就不会重复了,那么j需要满足的条件便是2j≤i。
因此这个算法的复杂度是O(n)的。
注意本题的KMP写法与KMP算法原理与实现 | KSkun’s Blog中的并不相同,因为该文章中的算法字符串下标从0开始标,利用-1判断是否到头,这会给计算cnt造成麻烦,因此采用了其他同学的写法。
// Code by KSkun, 2018/3
#include <cstdio>
#include <cstring>
typedef long long LL;
const int MAXN = 1000005, MO = 1e9 + 7;
int n, fail[MAXN], num[MAXN];
LL ans;
char str[MAXN];
inline void calfail() {
memset(fail, 0, sizeof(fail));
memset(num, 0, sizeof(num));
int i = 2, j = 0;
num[1] = 1;
for(; str[i]; i++) {
while(j && str[j + 1] != str[i]) {
j = fail[j];
}
if(str[j + 1] == str[i]) j++;
fail[i] = j;
num[i] = num[j] + 1;
}
}
inline void match() {
calfail();
ans = 1;
int i = 2, j = 0;
for(; str[i]; i++) {
while(j && str[j + 1] != str[i]) {
j = fail[j];
}
if(str[j + 1] == str[i]) j++;
while(j << 1 > i) j = fail[j];
ans = ((num[j] + 1) * ans) % MO;
}
}
int main() {
scanf("%d", &n);
while(n--) {
scanf("%s", str + 1);
match();
printf("%lld\n", ans);
}
return 0;
}
题目地址:洛谷:【P3338】[ZJOI2014]力 – 洛谷、BZOJ:Problem 3527. — [Zjoi2014]力
给出n个数q_i,给出F_j的定义如下:
F_j = \sum_{i < j} \frac{q_iq_j}{(i-j)^2} - \sum_{i > j} \frac{q_iq_j}{(i-j)^2}
令E_i = \frac{F_i}{q_i},求E_i。
输入格式:
第一行一个整数n。
接下来n行每行输入一个数,第i行表示qi。
输出格式:
n行,第i行输出Ei。
与标准答案误差不超过1e-2即可。
输入样例#1:
5 4006373.885184 15375036.435759 1717456.469144 8514941.004912 1410681.345880
输出样例#1:
-16838672.693 3439.793 7509018.566 4595686.886 10903040.872
对于30%的数据,n≤1000。
对于50%的数据,n≤60000。
对于100%的数据,n≤100000,0<qi<1000000000。
根据F的定义我们展开E的定义,如下
E_i = \sum_{j=1}^{i-1} \frac{q_j}{(i-j)^2} - \sum_{j=i+1}^{n} \frac{q_j}{(j-i)^2}
如果我们让a_i = q_i, b_i = \frac{1}{i^2}, b_0 = 0,代换掉再观察E的定义
E_i = \sum_{j=0}^{i-1} a_jb_{i-j} - \sum_{j=i+1}^{n} a_jb_{j-i}
第一项的求和实际上已经是卷积的形式了,但是后面这一项不是。我们考虑给这一项改一改
E_i = \sum_{j=0}^{i-1} a_jb_{i-j} - \sum_{j=0}^{n-i-1} a_{i+j}b_{j}
后面这一项好像还不是卷积呀,那如果我们令c_{n-i-j-1}=a_{i+j}(相当于把a数组翻过来存),带换掉?
E_i = \sum_{j=0}^{i-1} a_jb_{i-j} - \sum_{j=0}^{n-i-1} c_{n-i-j-1}b_{j}
好像可以卷积了!为了便于理解,我们换一种形式
A_i = \sum_{j=0}^{n-i-1} c_{n-i-j-1}b_{j} \Rightarrow A_{n-i-1} = \sum_{j=0}^{i} c_{i-j}b_{j}
这样我们看后面一项就是个卷积的形式。
// Code by KSkun, 2018/3
#include <cstdio>
#include <cmath>
#include <cstring>
#include <algorithm>
const int MAXN = 1 << 20;
const double PI = std::acos(-1);
struct Complex {
double real, imag;
Complex(double real = 0, double imag = 0) : real(real), imag(imag) {}
inline Complex operator+(const Complex &rhs) const {
return Complex(real + rhs.real, imag + rhs.imag);
}
inline Complex operator-(const Complex &rhs) const {
return Complex(real - rhs.real, imag - rhs.imag);
}
inline Complex operator*(const Complex &rhs) const {
return Complex(real * rhs.real - imag * rhs.imag, real * rhs.imag + imag * rhs.real);
}
inline Complex& operator*=(const Complex &rhs) {
return *this = *this * rhs;
}
};
int n, m, len, rev[MAXN];
Complex a[MAXN], b[MAXN];
double s[MAXN], ans[MAXN];
inline void fft(Complex *arr, int f) {
for(int i = 0; i < n; i++) {
if(i < rev[i]) std::swap(arr[i], arr[rev[i]]);
}
for(int i = 1; i < n; i <<= 1) {
Complex wn(std::cos(PI / i), f * std::sin(PI / i));
for(int j = 0; j < n; j += i << 1) {
Complex w(1, 0);
for(int k = 0; k < i; k++) {
Complex x = arr[j + k], y = w * arr[j + k + i];
arr[j + k] = x + y;
arr[j + k + i] = x - y;
w *= wn;
}
}
}
}
int N;
int main() {
scanf("%d", &N); n = N - 1;
for(int i = 0; i < N; i++) {
scanf("%lf", &s[i]);
}
m = n << 1;
for(n = 1; n <= m; n <<= 1) len++;
for(int i = 0; i < n; i++) {
rev[i] = (rev[i >> 1] >> 1) | ((i & 1) << (len - 1));
}
for(int i = 0; i < N; i++) {
a[i].real = s[i];
if(i) b[i].real = 1 / double(i) / double(i);
}
fft(a, 1);
fft(b, 1);
for(int i = 0; i <= n; i++) {
a[i] *= b[i];
}
fft(a, -1);
for(int i = 0; i < N; i++) {
ans[i] = a[i].real / double(n);
}
memset(a, 0, sizeof(a));
for(int i = 0; i < N; i++) {
a[i].real = s[N - i - 1];
}
fft(a, 1);
for(int i = 0; i <= n; i++) {
a[i] *= b[i];
}
fft(a, -1);
for(int i = 0; i < N; i++) {
ans[i] -= a[N - i - 1].real / double(n);
}
for(int i = 0; i < N; i++) {
printf("%.3lf\n", ans[i]);
}
return 0;
}