網頁刮料
外表
呢篇文 需要熟悉呢方面嘅人幫手寫。 |

網頁刮料(參見英文:web scraping )係指由網頁嗰度做數據刮取,攞有用嘅數據。原則上,網頁刮料呢家嘢可以齋靠人手做,但絕大多數用家都會嫌人手慢得滯;所以喺實際應用上,網頁刮料通常都會用自動化嘅電腦程式做,呢啲程式曉用 HTTP 等嘅方法上網,再郁手由啲網頁度攞數據[1]。
基本諗頭
[編輯]Fetch:攞用家指定嘅網頁嚟睇,當中網頁可能係用家指定網址,又或者教部電腦按某啲規則搵拃網頁返嚟;Extract:由手上嘅網頁度攞數據,簡單嘅可以係睇個網頁入面有乜字符,或者數吓每隻字符出現咗幾多次呀噉;
喺廿一世紀初,網頁刮料嘅做法成日俾人攞嚟分析網頁相關嘅問題-例如教程式自動噉由網購網站度攞有關產品嘅資訊(呢啲資訊會由網頁入面有嘅字反映)[4],又或者係攞社交媒體上面啲人嘅留言嚟睇,靠分析呢啲留言理解啲人對唔同嘢嘅觀感[5]。因為網頁刮料咁有用,有唔少電腦科學方面嘅工作者都致力做研究,想知點先可以設計出演算法嚟有效噉做網頁刮料[2]。
有咩用途
[編輯]分析情感
[編輯]内文:文本情感分析
法律問題
[編輯]呢節要加長。 |
睇埋:版權
雖然網頁刮料功能強大,但係呢種技術亦帶嚟一啲爭議。
網頁刮料刮返嚟嘅內容,有陣時可能受版權保護。未經授權就大規模複製他人網站嘅數據,可能會畀人告。[6]
網頁刮料器亦可能會對伺服器造成壓力:想像某刮料器係噉發出請求,想攞某網站嘅資訊,若果佢發出請求嘅頻率高得滯,有可能會搞到目標網站癱瘓,功能上等同阻斷服務攻擊;因此,合符道德嘅刮料工具應該要保持合理嘅請求頻率,避免對伺服器造成過重嘅負擔。[7]
有關網頁刮料器係咪合法,唔同國家地區嘅做法都有啲唔同。
睇埋
[編輯]引咗
[編輯]- ↑ Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4).
- 1 2 Mahto, D. K., & Singh, L. (2016, March). A dive into Web Scraper world. In 2016 3rd International Conference on Computing for Sustainable Global Development (INDIACom) (pp. 689-693). IEEE.
- ↑ Dastidar, B. G., Banerjee, D., & Sengupta, S. (2016). An intelligent survey of personalized information retrieval using web scraper. International Journal of Education and Management Engineering, 6(5), 24-31.
- ↑ Ullah, H., Ullah, Z., Maqsood, S., & Hafeez, A. (2018). Web scraper revealing trends of target products and new insights in online shopping websites. International Journal of Advanced Computer Science and Applications, 9(6).
- ↑ Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text". In Proceedings of the 2019 International Conference of the Pacific Association for Computational Linguistics (PACLING 2019), Hanoi, Vietnam (2019).
- ↑ Kenneth, Hirschey, Jeffrey (2014-01-01). "Symbiotic Relationships: Pragmatic Acceptance of Data Scraping". Berkeley Technology Law Journal. 29 (4). doi:10.15779/Z38B39B. ISSN 1086-3818. 原著喺2019-12-03歸檔. 喺2026-03-07搵到.
- ↑ Zhao, B., 2022. Web scraping. In Encyclopedia of big data (pp. 951-953). Cham: Springer International Publishing.
拎
[編輯]- (英文)Python 網頁刮料教學,GeeksForGeeks