- 论坛徽章:
- 0
|
大侠,你能帮我处理一下这整个题目吗,对我感觉有很大的难度,谢谢了。
对一个纯文本,其中的每一句话,你首先需要按顺序地得到这句话中每一个单词的字母数,比如“ In statistics, a power lar is a functional relationship between two quantities, where one quantity varies as a power of another" 这句话中,按顺序得到的单词的字母数序列是“ 2 10 1 5 3 2 1 10 12 7 3 10 5 3 8 5 3 8 6 2 1 5 2 7.
这文件中的每一句话做一次这样的分析后,你会得到一长串的字数(x1,x2, x3, ... xn), 每一个数字代表一个单词的字母数(n 为文件中单词数)。接下去对这串字数进行进行求平均,得到 xbar. 将原来的数组与xbar做差,得以 ( X1, X2, X3,X4,X5 .... Xn), 其中Xi=xi-xbar.然后对数组[ Xi ] 做累加 得到 [ Y1, Y2, Y3, ... Yn], 其中 Y1=X1, Y2=X1+X2, Y3=X1+X2+X3, ..., Yi = X1+X2+ ... + Xi.
对以上得到的数组 [ Yi ] 以L个为单元进行分组, 即第一组为 [ Y1 Y2 Y3 ... YL]. 对这L个数字进行最小二乘法拟合,得 Y=a1 x + a0, (这里的x为数组对应的下标数,即1~ L).
计算偏差量 E = sqrt( sum (Yi - (a1*xi +a0) )^2对其他单元进行一样的的计算,得到不同的不同的E_L_i。该尺度L下,统计的波动量 E_bar_L = mean( E_L_i) 用不同的L重复以上计算,得到相应的E_bar_L值。
|
|