免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3119 | 回复: 10
打印 上一主题 下一主题

[文本处理] awk 使用变量 以及更简单的方法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-08-14 12:52 |只看该作者 |倒序浏览
本帖最后由 Piaomiao139 于 2015-08-14 12:55 编辑

想写一个爬网站的脚本
现在的思路是
1).获取指定网站的类容
2).根据指定网站获取随后网站的类容(也就是这个网站有多少url 根据相应的url在去爬其他网站)
现在问题来了。
#!/bin/bash
# this function is get url in html

filename=$1
lineinfonumber=
while read 'Line'
do

    if [[ $Line == *[hH]ttp* ]]
    then
   
    lineinfonumber=`echo "$Line"|awk -F '"' '{print NF-1}'`
    ((printline= $lineinfonumber/2))
    printstr=
    for(( i=1;i<=$printline;i++))
    do
       ((printnumber=$i*2))
       printstr=$printstr"$"$printnumber
    done  
    echo $printstr
    printin='$1$2'
    echo "$Line" |awk -F '"' '{print '$printin'}'
    echo "$Line" |awk -F '"' '{print '$printstr'}'
fi
done < $filename

在这:
    echo $printstr
    printin='$1$2'
    echo "$Line" |awk -F '"' '{print '$printin'}'
    echo "$Line" |awk -F '"' '{print '$printstr'}'
的时候根本无法使用这个变量       $printstr 反而直接定义的可以使用 写了半天了 完全没反应  
有什么方法?
或者更简单的方法?

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-08-14 12:53 |只看该作者
awk -v ....

论坛徽章:
0
3 [报告]
发表于 2015-08-14 12:53 |只看该作者
用while 是因为还要对每句的文本处理

论坛徽章:
0
4 [报告]
发表于 2015-08-14 12:54 |只看该作者
回复 2# haooooaaa


    不是awk -v
是为什么呢?
因为这样也可以使用变量的你试试哇

论坛徽章:
0
5 [报告]
发表于 2015-08-14 12:56 |只看该作者
可以试试  在print的时候是可以使用变量的
但是 我在这里不可以 就不知道为什么了

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
6 [报告]
发表于 2015-08-14 12:59 |只看该作者
回复 1# Piaomiao139


我这里是可以的:
  1. $ printin='$1$2'
  2. $ echo '1"2"3' | awk -F '"' '{print '$printin'}'
  3. 12
复制代码

论坛徽章:
0
7 [报告]
发表于 2015-08-14 13:04 |只看该作者
回复 6# ly5066113


    对这样 是可以 但是你之前的是个变量就不可以了。完全不知道为什么。
Line='<!DOCTYPE html><html><!--STATUS OK--><head><meta http-equiv="X-UA-Compatible" content="IE=Edge" /><meta charset="utf-8" />'
lineinfonumber=`echo "$Line"|awk -F '"' '{print NF-1}'`
    ((printline= $lineinfonumber/2))
    printstr=
    for(( i=1;i<=$printline;i++))
    do
       ((printnumber=$i*2))
       printstr=$printstr"$"$printnumber
    done  
    echo $printstr
    printin=`echo "$printstr"|sed 's/','$//g' `
   
    printin='$1$2'
    echo $printstr
    echo $printin
    echo "$Line" |awk -F '"' '{print '$printin'}'
    echo "$Line" |awk -F '"' '{print '$printstr'}'
这样你试试哇

论坛徽章:
7
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:18程序设计版块每日发帖之星
日期:2015-08-09 06:20:00每日论坛发贴之星
日期:2015-08-09 06:20:00程序设计版块每日发帖之星
日期:2015-08-22 06:20:00程序设计版块每日发帖之星
日期:2015-08-27 06:20:00
8 [报告]
发表于 2015-08-14 13:16 |只看该作者
本帖最后由 tuyajie 于 2015-08-14 13:21 编辑

  1. [unar@Prod-UNAR-M1 s02_signals.cm_flight.cm_flight]$ a='$1,$2'
  2. [unar@Prod-UNAR-M1 s02_signals.cm_flight.cm_flight]$  echo "1\"2" | awk -F'"' '{OFS=",";print '$a'}'
  3. 1,2
  4. [jay.liu@aliCloud chinaUnix]$ awk --version
  5. GNU Awk 4.0.1
复制代码
我解释不来了。。。

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
9 [报告]
发表于 2015-08-14 13:37 |只看该作者
回复 7# Piaomiao139

没发现什么问题,不是很正常么?
  1. $ test.sh
  2. $2$4$6
  3. $2$4$6
  4. $1$2
  5. <!DOCTYPE html><html><!--STATUS OK--><head><meta http-equiv=X-UA-Compatible
  6. X-UA-CompatibleIE=Edgeutf-8
  7. $ cat test.sh
  8. #! /bin/bash
  9. Line='<!DOCTYPE html><html><!--STATUS OK--><head><meta http-equiv="X-UA-Compatible" content="IE=Edge" /><meta charset="utf-8" />'
  10. lineinfonumber=`echo "$Line"|awk -F '"' '{print NF-1}'`
  11.     ((printline= $lineinfonumber/2))
  12.     printstr=
  13.     for(( i=1;i<=$printline;i++))
  14.     do
  15.        ((printnumber=$i*2))
  16.        printstr=$printstr"$"$printnumber
  17.     done  
  18.     echo $printstr
  19.     printin=`echo "$printstr"|sed 's/','$//g' `
  20.    
  21.     printin='$1$2'
  22.     echo $printstr
  23.     echo $printin
  24.     echo "$Line" |awk -F '"' '{print '$printin'}'
  25.     echo "$Line" |awk -F '"' '{print '$printstr'}'
复制代码

论坛徽章:
0
10 [报告]
发表于 2015-08-14 13:51 |只看该作者
回复 9# ly5066113


    我的有问题 不知道为什么换个环境正常。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP