免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2224 | 回复: 4
打印 上一主题 下一主题

一整页HTML里如何抓取其中一个数字 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-02-06 23:48 |只看该作者 |倒序浏览

  1. <html xmlns:v="urn:schemas-microsoft-com:vml"
  2. xmlns:o="urn:schemas-microsoft-com:office:office"
  3. xmlns:w="urn:schemas-microsoft-com:office:word"
  4. xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882"
  5. xmlns="http://www.w3.org/TR/REC-html40">

  6. <head>
  7. <meta name="Microsoft Theme 2.00" content="Network 000">
  8. <meta http-equiv=Content-Type content="text/html; charset=utf-8">
  9. <meta name=ProgId content=Word.Document>
  10. <meta name=Generator content="Microsoft Word 10">
  11. <meta name=Originator content="Microsoft Word 10">
  12. <SCRIPT language="JavaScript">

  13. function updateTextBoxCounter() {

  14.    var unicodeFlag = 0;
  15.    var extraChars = 0;
  16.    var msgCount = 0;

  17.    for (var i = 0; (!unicodeFlag && (i < document.forms[0].Text.value.length)); i++) {
  18.       if ((document.forms[0].Text.value.charAt(i) >= '0') && (document.forms[0].Text.value.charAt(i) <= '9')) {
  19.       }
  20.       else if ((document.forms[0].Text.value.charAt(i) >= 'A') && (document.forms[0].Text.value.charAt(i) <= 'Z')) {
  21.       }
  22.       else if ((document.forms[0].Text.value.charAt(i) >= 'a') && (document.forms[0].Text.value.charAt(i) <= 'z')) {
  23.       }
  24.       else if (document.forms[0].Text.value.charAt(i) == '@') {
  25.       }
  26.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xA3) {
  27.       }
  28.       else if (document.forms[0].Text.value.charAt(i) == '$') {
  29.       }
  30.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xA5) {
  31.       }
  32.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xE8) {
  33.       }
  34.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xE9) {
  35.       }
  36.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xF9) {
  37.       }
  38.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xEC) {
  39.       }
  40.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xF2) {
  41.       }
  42.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xC7) {
  43.       }
  44.       else if (document.forms[0].Text.value.charAt(i) == '\r') {
  45.       }
  46.       else if (document.forms[0].Text.value.charAt(i) == '\n') {
  47.       }
  48.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xD8) {
  49.       }
  50.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xF8) {
  51.       }
  52.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xC5) {
  53.       }
  54.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xE5) {
  55.       }
  56.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x394) {
  57.       }
  58.       else if (document.forms[0].Text.value.charAt(i) == '_') {
  59.       }
  60.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A6) {
  61.       }
  62.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x393) {
  63.       }
  64.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x39B) {
  65.       }
  66.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A9) {
  67.       }
  68.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A0) {
  69.       }
  70.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A8) {
  71.       }
  72.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A3) {
  73.       }
  74.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x398) {
  75.       }
  76.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x39E) {
  77.       }
  78.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xC6) {
  79.       }
  80.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xE6) {
  81.       }
  82.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xDF) {
  83.       }
  84.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xC9) {
  85.       }
  86.       else if (document.forms[0].Text.value.charAt(i) == ' ') {
  87.       }
  88.       else if (document.forms[0].Text.value.charAt(i) == '!') {
  89.       }
  90.       else if (document.forms[0].Text.value.charAt(i) == '\"') {
  91.       }
  92.       else if (document.forms[0].Text.value.charAt(i) == '#') {
  93.       }
  94.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xA4) {
  95.       }
  96.       else if (document.forms[0].Text.value.charAt(i) == '%') {
  97.       }
  98.       else if (document.forms[0].Text.value.charAt(i) == '&') {
  99.       }
  100.       else if (document.forms[0].Text.value.charAt(i) == '\'') {
  101.       }
  102.       else if (document.forms[0].Text.value.charAt(i) == '(') {
  103.       }
  104.       else if (document.forms[0].Text.value.charAt(i) == ')') {
  105.       }
  106.       else if (document.forms[0].Text.value.charAt(i) == '*') {
  107.       }
  108.       else if (document.forms[0].Text.value.charAt(i) == '+') {
  109.       }
  110.       else if (document.forms[0].Text.value.charAt(i) == ',') {
  111.       }
  112.       else if (document.forms[0].Text.value.charAt(i) == '-') {
  113.       }
  114.       else if (document.forms[0].Text.value.charAt(i) == '.') {
  115.       }
  116.       else if (document.forms[0].Text.value.charAt(i) == '/') {
  117.       }
  118.       else if (document.forms[0].Text.value.charAt(i) == ':') {
  119.       }
  120.       else if (document.forms[0].Text.value.charAt(i) == ';') {
  121.       }
  122.       else if (document.forms[0].Text.value.charAt(i) == '<') {
  123.       }
  124.       else if (document.forms[0].Text.value.charAt(i) == '=') {
  125.       }
  126.       else if (document.forms[0].Text.value.charAt(i) == '>') {
  127.       }
  128.       else if (document.forms[0].Text.value.charAt(i) == '?') {
  129.       }
  130.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xA1) {
  131.       }
  132.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xC4) {
  133.       }
  134.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xD6) {
  135.       }
  136.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xD1) {
  137.       }
  138.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xDC) {
  139.       }
  140.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xA7) {
  141.       }
  142.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xBF) {
  143.       }
  144.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xE4) {
  145.       }
  146.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xF6) {
  147.       }
  148.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xF1) {
  149.       }
  150.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xFC) {
  151.       }
  152.       else if (document.forms[0].Text.value.charCodeAt(i) == 0xE0) {
  153.       }
  154.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x391) {
  155.       }
  156.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x392) {
  157.       }
  158.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x395) {
  159.       }
  160.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x396) {
  161.       }
  162.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x397) {
  163.       }
  164.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x399) {
  165.       }
  166.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x39A) {
  167.       }
  168.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x39C) {
  169.       }
  170.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x39D) {
  171.       }
  172.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x39F) {
  173.       }
  174.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A1) {
  175.       }
  176.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A4) {
  177.       }
  178.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A5) {
  179.       }
  180.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x3A7) {
  181.       }
  182.       else if (document.forms[0].Text.value.charAt(i) == '^') {
  183.          extraChars++;
  184.       }
  185.       else if (document.forms[0].Text.value.charAt(i) == '{') {
  186.          extraChars++;
  187.       }
  188.       else if (document.forms[0].Text.value.charAt(i) == '}') {
  189.          extraChars++;
  190.       }
  191.       else if (document.forms[0].Text.value.charAt(i) == '\\') {
  192.          extraChars++;
  193.       }
  194.       else if (document.forms[0].Text.value.charAt(i) == '[') {
  195.          extraChars++;
  196.       }
  197.       else if (document.forms[0].Text.value.charAt(i) == '~') {
  198.          extraChars++;
  199.       }
  200.       else if (document.forms[0].Text.value.charAt(i) == ']') {
  201.          extraChars++;
  202.       }
  203.       else if (document.forms[0].Text.value.charAt(i) == '|') {
  204.          extraChars++;
  205.       }
  206.       else if (document.forms[0].Text.value.charCodeAt(i) == 0x20AC) {
  207.          extraChars++;
  208.       }
  209.       else {
  210.          unicodeFlag = 1;
  211.       }
  212.    }

  213.    if (unicodeFlag) {
  214.       msgCount = document.forms[0].Text.value.length;
  215.       if (msgCount <= 70) {
  216.          msgCount = 1;
  217.       }
  218.       else {
  219.          msgCount += (63-1);
  220.          msgCount -= (msgCount % 63);
  221.          msgCount /= 63;
  222.       }
  223.       document.forms[0].InfoCharCounter.value = "" + document.forms[0].Text.value.length + " unicode characters, " + msgCount + " SMS message(s)";
  224.    }
  225.    else {
  226.       msgCount = document.forms[0].Text.value.length + extraChars;
  227.       if (msgCount <= 160) {
  228.          msgCount = 1;
  229.       }
  230.       else {
  231.          msgCount += (153-1);
  232.          msgCount -= (msgCount % 153);
  233.          msgCount /= 153;
  234.       }
  235.       document.forms[0].InfoCharCounter.value = "" + (document.forms[0].Text.value.length + extraChars) + " characters, " + msgCount + " SMS message(s)";
  236.    }
  237. }

  238. function clearTextBoxCounter() {

  239.    document.forms[0].InfoCharCounter.value = "";

  240. }

  241. function doAddrBook() {
  242.    var newWindow;
  243.    var props = 'scrollBars=yes,resizable=yes,toolbar=no,menubar=no,location=no,directories=no,width=700,height=500';
  244.    newWindow = window.open("/AddrBook", "NowSMSAddressBook", props);
  245. }

  246. function addPhoneNumber(phoneNumber) {

  247.    var tempString = "";
  248.    var alreadyInList = 0;
  249.    for (var i = 0; i < window.document.forms[0].PhoneNumber.value.length; i++) {
  250.       if (window.document.forms[0].PhoneNumber.value.charAt(i) != ',') {
  251.          tempString += window.document.forms[0].PhoneNumber.value.charAt(i);
  252.       }
  253.       else {
  254.          if (tempString == phoneNumber) {
  255.             alreadyInList = 1;
  256.          }
  257.          tempString = "";
  258.       }
  259.    }

  260.    if (tempString.length) {
  261.       if (tempString == phoneNumber) {
  262.          alreadyInList = 1;
  263.       }
  264.    }

  265.    if (!alreadyInList) {
  266.       if (window.document.forms[0].PhoneNumber.value.length) {
  267.          window.document.forms[0].PhoneNumber.value += ",";
  268.       }
  269.       window.document.forms[0].PhoneNumber.value += phoneNumber;
  270.    }

  271. }

  272. function setPhoneNumber(phoneNumber) {
  273.    var tempString = "";
  274.    for (var i = 0; i < phoneNumber.length; i++) {
  275.       if (phoneNumber.charAt(i) != ',') {
  276.          tempString += phoneNumber.charAt(i);
  277.       }
  278.       else {
  279.          addPhoneNumber(tempString);
  280.          tempString = "";
  281.       }
  282.    }

  283.    if (tempString.length) {
  284.       addPhoneNumber(tempString);
  285.    }

  286. }

  287. </SCRIPT>
  288. <!--[if !mso]>
  289. <style>
  290. v\:* {behavior:url(#default#VML);}
  291. o\:* {behavior:url(#default#VML);}
  292. w\:* {behavior:url(#default#VML);}
  293. .shape {behavior:url(#default#VML);}
  294. </style>
  295. <![endif]-->
  296. <title>余额查询</title>
  297. <!--[if gte mso 9]><xml>
  298. <o:DocumentProperties>
  299.   <o:Author> </o:Author>
  300.   <o:Template>Normal</o:Template>
  301.   <o:LastAuthor> </o:LastAuthor>
  302.   <o:Revision>5</o:Revision>
  303.   <o:TotalTime>23</o:TotalTime>
  304.   <o:Created>2002-10-09T15:06:00Z</o:Created>
  305.   <o:LastSaved>2002-10-09T16:09:00Z</o:LastSaved>
  306.   <o:Pages>1</o:Pages>
  307.   <o:Words>28</o:Words>
  308.   <o:Characters>164</o:Characters>
  309.   <o:Company> </o:Company>
  310.   <o:Lines>1</o:Lines>
  311.   <o:Paragraphs>1</o:Paragraphs>
  312.   <o:CharactersWithSpaces>191</o:CharactersWithSpaces>
  313.   <o:Version>10.2625</o:Version>
  314. </o:DocumentProperties>
  315. </xml><![endif]--><!--[if gte mso 9]><xml>
  316. <w:WordDocument>
  317.   <w:SpellingState>Clean</w:SpellingState>
  318.   <w:GrammarState>Clean</w:GrammarState>
  319.   <w:DefaultTableStyle Number="155">Table Theme</w:DefaultTableStyle>
  320.   <w:Compatibility>
  321.    <w:BreakWrappedTables/>
  322.    <w:SnapToGridInCell/>
  323.    <w:WrapTextWithPunct/>
  324.    <w:UseAsianBreakRules/>
  325.   </w:Compatibility>
  326.   <w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel>
  327. </w:WordDocument>
  328. </xml><![endif]-->
  329. <style>
  330. <!--
  331. /* Font Definitions */
  332. @font-face
  333.         {font-family:"Trebuchet MS";
  334.         panose-1:2 11 6 3 2 2 2 2 2 4;
  335.         mso-font-charset:0;
  336.         mso-generic-font-family:swiss;
  337.         mso-font-pitch:variable;
  338.         mso-font-signature:647 0 0 0 159 0;}
  339. /* Style Definitions */
  340. p.MsoNormal, li.MsoNormal, div.MsoNormal
  341.         {mso-style-parent:"";
  342.         margin:0in;
  343.         margin-bottom:.0001pt;
  344.         mso-pagination:widow-orphan;
  345.         font-size:12.0pt;
  346.         font-family:"Trebuchet MS";
  347.         mso-fareast-font-family:"Times New Roman";
  348.         mso-bidi-font-family:"Times New Roman";
  349.         color:black;}
  350. h1
  351.         {mso-style-next:Normal;
  352.         margin-top:12.0pt;
  353.         margin-right:0in;
  354.         margin-bottom:3.0pt;
  355.         margin-left:0in;
  356.         mso-pagination:widow-orphan;
  357.         page-break-after:avoid;
  358.         mso-outline-level:1;
  359.         font-size:24.0pt;
  360.         font-family:"Trebuchet MS";
  361.         color:black;
  362.         mso-font-kerning:16.0pt;
  363.         font-weight:normal;}
  364. h2
  365.         {mso-style-next:Normal;
  366.         margin-top:12.0pt;
  367.         margin-right:0in;
  368.         margin-bottom:3.0pt;
  369.         margin-left:0in;
  370.         mso-pagination:widow-orphan;
  371.         page-break-after:avoid;
  372.         mso-outline-level:2;
  373.         font-size:18.0pt;
  374.         font-family:"Trebuchet MS";
  375.         color:black;
  376.         font-weight:normal;}
  377. h3
  378.         {mso-style-next:Normal;
  379.         margin-top:12.0pt;
  380.         margin-right:0in;
  381.         margin-bottom:3.0pt;
  382.         margin-left:0in;
  383.         mso-pagination:widow-orphan;
  384.         page-break-after:avoid;
  385.         mso-outline-level:3;
  386.         font-size:14.0pt;
  387.         font-family:"Trebuchet MS";
  388.         color:black;
  389.         font-weight:normal;}
  390. h4
  391.         {mso-style-next:Normal;
  392.         margin-top:12.0pt;
  393.         margin-right:0in;
  394.         margin-bottom:3.0pt;
  395.         margin-left:0in;
  396.         mso-pagination:widow-orphan;
  397.         page-break-after:avoid;
  398.         mso-outline-level:4;
  399.         font-size:12.0pt;
  400.         font-family:"Trebuchet MS";
  401.         color:black;
  402.         font-weight:normal;}
  403. h5
  404.         {mso-style-next:Normal;
  405.         margin-top:12.0pt;
  406.         margin-right:0in;
  407.         margin-bottom:3.0pt;
  408.         margin-left:0in;
  409.         mso-pagination:widow-orphan;
  410.         mso-outline-level:5;
  411.         font-size:10.0pt;
  412.         font-family:"Trebuchet MS";
  413.         color:black;
  414.         font-weight:normal;}
  415. h6
  416.         {mso-style-next:Normal;
  417.         margin-top:12.0pt;
  418.         margin-right:0in;
  419.         margin-bottom:3.0pt;
  420.         margin-left:0in;
  421.         mso-pagination:widow-orphan;
  422.         mso-outline-level:6;
  423.         font-size:8.0pt;
  424.         font-family:"Trebuchet MS";
  425.         color:black;
  426.         font-weight:normal;}
  427. a:link, span.MsoHyperlink
  428.         {color:#0066CC;
  429.         text-decoration:underline;
  430.         text-underline:single;}
  431. a:visited, span.MsoHyperlinkFollowed
  432.         {color:#999999;
  433.         text-decoration:underline;
  434.         text-underline:single;}
  435. @page Section1
  436.         {size:8.5in 11.0in;
  437.         margin:1.0in 1.25in 1.0in 1.25in;
  438.         mso-header-margin:.5in;
  439.         mso-footer-margin:.5in;
  440.         mso-paper-source:0;}
  441. div.Section1
  442.         {page:Section1;}
  443. .STYLE1 {
  444.         font-size: 10pt;
  445.         font-weight: bold;
  446. }
  447. -->
  448. </style>
  449. <!--[if gte mso 10]>
  450. <style>
  451. /* Style Definitions */
  452. table.MsoNormalTable
  453.         {mso-style-name:"Table Normal";
  454.         mso-tstyle-rowband-size:0;
  455.         mso-tstyle-colband-size:0;
  456.         mso-style-noshow:yes;
  457.         mso-style-parent:"";
  458.         mso-padding-alt:0in 5.4pt 0in 5.4pt;
  459.         mso-para-margin:0in;
  460.         mso-para-margin-bottom:.0001pt;
  461.         mso-pagination:widow-orphan;
  462.         font-size:10.0pt;
  463.         font-family:"Times New Roman";}
  464. table.MsoTableTheme
  465.         {mso-style-name:"Table Theme";
  466.         mso-tstyle-rowband-size:0;
  467.         mso-tstyle-colband-size:0;
  468.         border:solid #669999 1.0pt;
  469.         mso-border-alt:solid #669999 .5pt;
  470.         mso-padding-alt:0in 5.4pt 0in 5.4pt;
  471.         mso-border-insideh:.5pt solid #669999;
  472.         mso-border-insidev:.5pt solid #669999;
  473.         mso-para-margin:0in;
  474.         mso-para-margin-bottom:.0001pt;
  475.         mso-pagination:widow-orphan;
  476.         font-size:10.0pt;
  477.         font-family:"Times New Roman";}
  478. </style>
  479. <![endif]--><!--[if gte mso 9]><xml>
  480. <o:shapedefaults v:ext="edit" spidmax="1026"/>
  481. </xml><![endif]--><!--[if gte mso 9]><xml>
  482. <o:shapelayout v:ext="edit">
  483.   <o:idmap v:ext="edit" data="1"/>
  484. </o:shapelayout></xml><![endif]-->

  485. </head>


  486. <h1 class="STYLE1">余额查询:</h1>
  487. <p class=MsoNormal>&nbsp;</p>

  488. <p class=MsoNormal><span style='font-size:10.0pt;mso-bidi-font-size:12.0pt'>您的剩余可用消费点数为: 996</span></p>
  489. <p class=MsoNormal><span style='font-size:10.0pt;mso-bidi-font-size:12.0pt'><o:p>&nbsp;</o:p></span></p>





  490. </div>

  491. </body>

  492. </html>

复制代码


上面是file_get_contents抓取下来的,可以抓取“您的剩余可用消费点数为: ”这后面的数字,这个数字是会变化的,可能是六七位数,也有可能是0,请教各位怎么把这个数字抓取出来?

论坛徽章:
0
2 [报告]
发表于 2009-02-07 17:14 |只看该作者
preg_match_all("/您的剩余可用消费点数为[/d]+)</is",源代码,$arr);

print_r($arr);

论坛徽章:
0
3 [报告]
发表于 2009-02-07 18:30 |只看该作者
  1. preg_match("/可用消费点数为:(d+)/",$str,$match);
  2. echo $match[1];
复制代码

论坛徽章:
0
4 [报告]
发表于 2009-02-07 19:16 |只看该作者
先谢谢楼上两位,
但是用你们提供的办法,没法提取出来。结果是个空数组

论坛徽章:
0
5 [报告]
发表于 2009-02-09 11:25 |只看该作者
  1. preg_match("/可用消费点数为:(.*?)<\/span>/is",$html,$match);
  2. echo trim($match[1]);
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP