昨天有個朋友在問我說,php怎麼抓取網頁某個div區塊的內容。像funp推推王那樣每次推文都會顯示文章內的圖片,提供縮圖撰擇,又是怎麼做到的?其實這語法出乎意料的簡短…

1. 取得指定網頁內的所有圖片:測試
<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/');
//取得所有img標籤,並儲存至二維陣列match
preg_match_all('#<img[^>]*>#i', $text, $match);
//印出match
print_r($match);
?>
2. 取得指定網頁內的第一張圖片:測試
<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/');
//取得第一個img標籤,並儲存至陣列match(regex語法與上述同義)
preg_match('/<img[^>]*>/Ui', $text, $match);
//印出match
print_r($match);
?>
3. 取得指定網頁內的特定div區塊(藉由id判斷):測試
<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/2009/01/seo%e5%8c%96%e7%9a%84%e9%97%9c%e9%8d%b5%e5%ad%97%e5%bb%a3%e5%91%8a%e9%80%a3%e7%b5%90/');
//去除換行及空白字元(序列化內容才需使用)
//$text=str_replace(array("\r","\n","\t","\s"), '', $text);
//取出div標籤且id為PostContent的內容,並儲存至陣列match
preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) <\/div>/si',$text,$match);
//印出match[0]
print($match[0]);
?>
4. 上述2及3的結合:測試
<?php
//取得指定位址的內容,並儲存至text
$text=file_get_contents('http://andy.diimii.com/2009/01/seo%e5%8c%96%e7%9a%84%e9%97%9c%e9%8d%b5%e5%ad%97%e5%bb%a3%e5%91%8a%e9%80%a3%e7%b5%90/');
//取出div標籤且id為PostContent的內容,並儲存至陣列match
preg_match('/<div[^>]*id="PostContent"[^>]*>(.*?) <\/div>/si',$text,$match);
//取得第一個img標籤,並儲存至陣列match2
preg_match('/<img[^>]*>/Ui', $match[0], $match2);
//印出match2[0]
print_r($match2[0]);
?>
在Google及Yahoo找資料,已成為許多人每天必行的公事。「網路」的無遠弗屆,造就了一個世界級的知識寶庫,著實讓我受益良多。
設立此部落格除用做網路行銷、學習記事與知識管理外,希望也能做些回饋和經驗分享,如果有人能從這裡的文章得到一點幫助就好了...
網站生日:2008/09/16 年紀:41個多月
kenneth
三月 8th, 2009 at 11:16 上午
喔喔原來是這樣啊~~~
感謝你
三月 9th, 2009 at 10:35 上午
感謝你 對我有很大幫助
等我成名我會來報答你給你錢
愛死擬了
ANDY
三月 9th, 2009 at 11:16 上午
有幫上忙就好(但你的網址和mail都亂填T_T)
star
四月 6th, 2009 at 11:28 上午
請問一下!
這四個步驟中的正規表達式,
步驟二其中一開始的”/” 和結束的 “/Ui”是什意思阿?
ANDY
四月 8th, 2009 at 4:27 下午
斜線/和斜線的U和i是使用PCRE模式的修飾字,旨在取得斜線內的一個匹配字符,而不是多個,可參考這篇文章
http://www.php.net/manual/en/reference.pcre.pattern.modifiers.php
star
四月 13th, 2009 at 9:44 上午
感謝~
後來我也找到這個頁面!
了解怎麼運用preg系列函式的修飾字了!
ANDY
四月 13th, 2009 at 10:43 上午
不客氣
Neil
七月 18th, 2009 at 11:35 上午
您好!!!這幾天這問題困擾我很久.一直在嚐試中.希望版主可以幫忙解答
請問要如何從下列字串篩檢出111.222.333.444.555,666,777,888,999,000????
字串————————————–
111
222
333
444
555
666
777
888
999
000
字串————————————–
Neil
七月 18th, 2009 at 11:36 上午
html都被吃掉了….問題在這
http://www.blueshop.com.tw/board/show.asp?subcde=BRD200907172120073MA&fumcde=FUM20041006152627A9N&rplcnt=0
ANDY
七月 22nd, 2009 at 11:11 下午
TO:Neil
不好意思晚回覆了,看來已有人幫你^^
ME
一月 1st, 2010 at 7:35 下午
請問第一題 1. 取得指定網頁內的所有圖片 此處[^>]的意思是?? 感謝ANDY版大的回答 ^^
ANDY
一月 25th, 2010 at 1:02 下午
To: ME
/<img[^>]*>/
以<img為起始,中間所有符合不為>的所有字串,再以>做結尾
(正規式很難用中文解釋耶T_T)