跳去內容

網頁刮料

出自維基百科,自由嘅百科全書
2010 年 9 月 22 日嘅英文維基頭版;包括維基百科在內嘅好多網站都內有豐富嘅數據,有冇辦法教程式自動噉攞啲數據嚟用?

網頁刮料(參見英文web scraping )係指由網頁嗰度做數據刮取,攞有用嘅數據。原則上,網頁刮料呢家嘢可以齋靠人手做,但絕大多數用家都會嫌人手慢得滯;所以喺實際應用上,網頁刮料通常都會用自動化嘅電腦程式做,呢啲程式曉用 HTTP 等嘅方法上網,再郁手由啲網頁度攞數據[1]

基本諗頭

[編輯]

最基本上,做網頁刮料嘅程式會有兩大功能[2][3]

  • Fetch:攞用家指定嘅網頁嚟睇,當中網頁可能係用家指定網址,又或者教部電腦按某啲規則搵拃網頁返嚟;
  • Extract:由手上嘅網頁度攞數據,簡單嘅可以係睇個網頁入面有乜字符,或者數吓每隻字符出現咗幾多次呀噉;

喺廿一世紀初,網頁刮料嘅做法成日俾人攞嚟分析網頁相關嘅問題-例如教程式自動噉由網購網站度攞有關產品資訊(呢啲資訊會由網頁入面有嘅字反映)[4],又或者係攞社交媒體上面啲人嘅留言嚟睇,靠分析呢啲留言理解啲人對唔同嘢嘅觀感[5]。因為網頁刮料咁有用,有唔少電腦科學方面嘅工作者都致力做研究,想知點先可以設計出演算法嚟有效噉做網頁刮料[2]

亦可以睇睇資訊提取資訊抽取之間嘅對比。

有咩用途

[編輯]

分析情感

[編輯]

法律問題

[編輯]
睇埋:版權

雖然網頁刮料功能強大,但係呢種技術亦帶嚟一啲爭議。

網頁刮料刮返嚟嘅內容,有陣時可能受版權保護。未經授權就大規模複製他人網站嘅數據,可能會畀人告。[6]

網頁刮料器亦可能會對伺服器造成壓力:想像某刮料器係噉發出請求,想攞某網站嘅資訊,若果佢發出請求嘅頻率高得滯,有可能會搞到目標網站癱瘓,功能上等同阻斷服務攻擊;因此,合符道德嘅刮料工具應該要保持合理嘅請求頻率,避免對伺服器造成過重嘅負擔。[7]

有關網頁刮料器係咪合法,唔同國家地區嘅做法都有啲唔同。

睇埋

[編輯]

引咗

[編輯]
  1. Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4).
  2. 1 2 Mahto, D. K., & Singh, L. (2016, March). A dive into Web Scraper world. In 2016 3rd International Conference on Computing for Sustainable Global Development (INDIACom) (pp. 689-693). IEEE.
  3. Dastidar, B. G., Banerjee, D., & Sengupta, S. (2016). An intelligent survey of personalized information retrieval using web scraper. International Journal of Education and Management Engineering, 6(5), 24-31.
  4. Ullah, H., Ullah, Z., Maqsood, S., & Hafeez, A. (2018). Web scraper revealing trends of target products and new insights in online shopping websites. International Journal of Advanced Computer Science and Applications, 9(6).
  5. Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text". In Proceedings of the 2019 International Conference of the Pacific Association for Computational Linguistics (PACLING 2019), Hanoi, Vietnam (2019).
  6. Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4). doi:10.15779/Z38B39B. ISSN 1086-3818. 原著喺2019-12-03歸檔. 喺2026-03-07搵到.
  7. Zhao, B., 2022. Web scraping. In Encyclopedia of big data (pp. 951-953). Cham: Springer International Publishing.

[編輯]