Skip to content

JJSPython/Crawler-for-Java

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 

Repository files navigation

Crawler-for-Java

Community

ConnectionTools

  • Jsoup
    • 優點: 能支援大部分的方法尤其在 Cookie 的處理。
    • 缺點: POST 時遇到 payload 格式(聽說最新版本已支援尚未測試...),不支援 ConnctionTimeOut 只能統一設定,撰寫 PostDate 相當的麻煩, JavaScript 不支援。
  • HttpURLConnction
    • 優點: 能夠設定很詳細的連線選項。
    • 缺點: 在撰寫上非常的麻煩, JavaScript 不支援。
  • WebClient
    • 優點: 能夠模擬瀏覽器上的大部分動作,更新很快。
    • 缺點: 執行相當的慢,某些功能要等待更新。
  • Selenium
    • 優點: 能夠模擬全部瀏覽器的動作,還能夠拿來做自動測試。
    • 缺點: 每次執行真實的瀏覽器(有幽靈模擬器不過還是會執行),使用資源過大。
  • Unirest
    • 優點: 速度快,撰寫相當方便,能夠直接輸出Json格式,傳遞Data相當方便使用(目前主力使用)。
    • 缺點: Cookie 支援度不高, JavaScript 不支援,有一項 Bug 設定一次以上的 TimeOut 會造成 Thread 的滯留。

Parser

  1. 利用 HtmlTag 當索引。
  2. 能夠對 Html 做修改再輸出。
  3. 清除 Html 不需要的資料( XSS 攻擊)。
  4. 選擇器: Tag 名稱、命名空間、ID、Class、屬性、屬性前墜、屬性數值、正則表達式,以上所有方法都可以任意搭配組合(利用> + ~ ,)。
  5. 表達式: 小於 N 列、取得包含 N 數量以上,取得包含 N 數量,包含 X 元素,不包含 X ,有 X 內容之容器,完全符合 X 內容之容器,正則表達式過濾,正則表達式取得。

ConectionStep

Example Website

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •