�ھ��籦�أ�R��XML��ץȡ www.sohu.com ͼƬ-��ƿ��

�ھ��籦�أ�R��XML��ץȡ www.sohu.com ͼƬ

2024-02-26 40

��Ȩ

��Ȩ��

��ɰ��ʵ��ע��û��Է��ף��Ȩ��ԭ��У��ƿ��ӵ��Ȩ��಻�е��Ӧ��Ρ��鿴�� ƿ��û��Э�� ƿ��֪ʶ��Ȩ��ָ��ֱ��ӳ�Ϯ��ݣ��д ��ȨͶ�߱��оٱ��һ��ʵ��ɾ��Ȩ��ݡ�

��飺 ��ͼƬ��Դ��δ��ض��վ�п��ٵ�ץȡͼƬ�أ��Ľ��һ��ʹ�� R ��Ժ� XML ��ļ򵥷��ɵش� www.sohu.com ��վ��Ȥ��ͼƬ��Ľ��漰��¼��棺�� Ϊʲôѡ�� R ��Ժ� XML ��ΪͼƬ��Ĺ��ߣ�� ʹ�� R ��Ժ� XML ��ʡ��ȡ��ҳ�ϵ�ͼƬ��ӣ�� ʹ�ô�� IP ��ο��ţ��ã��ⱻ��վ��λ��ƣ�� ʵ�ֶ��̼߳��ͼƬ��ȡ��Ч�ʺ��ٶȣ�� ν��ȡ��ͼƬ��浽��ػ��ƶˣ��ݷ��Ϳ��ӻ��

ժҪ

��ͼƬ��Դ��δ��ض��վ�п��ٵ�ץȡͼƬ�أ��Ľ��һ��ʹ�� R ��Ժ� XML ��ļ򵥷��ɵش� www.sohu.com ��վ��Ȥ��ͼƬ��Ľ��漰��¼��棺

Ϊʲôѡ�� R ��Ժ� XML ��ΪͼƬ��Ĺ��ߣ�
��ʹ�� R ��Ժ� XML ��ʡ��ȡ��ҳ�ϵ�ͼƬ��ӣ�
��ʹ�ô�� IP ��ο��ã��ⱻ��վ��λ��ƣ�
��ʵ�ֶ��̼߳��ͼƬ��ȡ��Ч�ʺ��ٶȣ�
��ν��ȡ��ͼƬ��浽��ػ��ƶˣ��ݷ��Ϳ��ӻ��

1. ��

ͼƬ��һ�ַǳ��Ҫ��ͣ��Դ��ݷḻ��Ϣ��ǵ��Ҳ��ڸ��ݿ�ѧ��Ӧ�ã��ͼ��ʶ��ͼ��ͼ��ɵȡ�Ȼ��ϵ�ͼƬ��Դ�Ƿ�ɢ�ģ��ʱ��Ҫ��ض��վ��ץȡͼƬ��Ա��ڽ��н�һ��ķ��á��磬��ǿ��Ҫ�� www.sohu.com ��վ��ץȡһЩ��ͼƬ��˽⵱ǰ��ȵ��鶯̬��ǿ��Ҫ�� www.sohu.com ��վ��ץȡһЩ��ʳͼƬ��Ի�ȡһЩ��ζ�Ĳ��׺��С��ô��β��ʵ��ͼƬ��ȡ�أ��Ľ��һ��ʹ�� R ��Ժ� XML ��ļ򵥷��ɵش� www.sohu.com ��վ��Ȥ��ͼƬ��

2. ��£�ʹ�� R �� XML ��ȡͼƬ

��һ��֣��ǽ��ϸ��ʹ�� R ��Ժ� XML ��ʵ��ͼƬ��ȡ��ǽ��¹ؼ��ݣ�
��ô�� IP��ļ��ǿ��ô�� IP��ȡЧ�ʲ��ܷ��
��ö��̼߳��ͨ��̼߳��ܹ��ҳ��Ӷ��ӿ�ͼƬ��ץȡ�ٶȡ�
��ݴ��洢��ǽ��δ��ʹ洢��ҳ�л�ȡ��ͼƬ��ݣ��Ա��Ӧ�á�

��˽��漼��Ҫ��ʵ��⣬��Ķ��Ϊ��ṩ��ϸ��ָ��ʵ�õļ��ɡ�

2.1 ׼��

��ȣ��Ҫ��װ R ��Ժ��Ŀ⡣ȷ��Ѿ��װ�� R��Ȼ��ִ��װ XML �⣺

install.packages("XML")

2.2 ��д��

��Ǳ�дһ�� R �ű��ʵ�ִ� www.sohu.com ץȡͼƬ�Ĺ��ܡ��Ǵ��ʾ��,��ý��ʾ��Ҫ��ʵ��е��

# ���������
library(XML)
library(httr)
library(foreach)
library(doParallel)

# ��ţ�� ���������׼�� ����IP��Ϣ
proxy <- list(
  http = "http://www.16yun.cn:36986:16YUN:805478",
  https = "http://www.16yun.cn:36986:16YUN:805478"
)

# ����Ŀ����ַ
url <- "https://www.sohu.com"

# ��ȡҳ�����ݵĺ���
get_page <- function(url) {
   
   
  tryCatch({
   
   
    response <- httr::GET(url, use_proxy(proxy))
    content <- httr::content(response, as = "text")
    return(content)
  }, error = function(e) {
   
   
    cat("Error fetching page:", conditionMessage(e), "\n")
    return(NULL)
  })
}

# ����ҳ�����ݣ���ȡͼƬ����
parse_page <- function(content) {
   
   
  doc <- XML::htmlParse(content, useInternalNodes = TRUE)
  img_nodes <- XML::getNodeSet(doc, "//img")
  img_links <- sapply(img_nodes, function(node) XML::xmlGetAttr(node, "src"))
  return(img_links)
}

# ���߳�����ͼƬ
download_images <- function(img_links) {
   
   
  registerDoParallel(cores = 4)  # �����߳���
  foreach(link = img_links, .combine = c) %dopar% {
   
   
    tryCatch({
   
   
      img <- httr::GET(link, use_proxy(proxy))
      filename <- basename(link)
      writeBin(content(img, "raw"), file.path("images", filename))
      cat("Downloaded", filename, "\n")
    }, error = function(e) {
   
   
      cat("Error downloading image:", conditionMessage(e), "\n")
    })
  }
  stopImplicitCluster()
}

# ������
main <- function() {
   
   
  content <- get_page(url)
  if (!is.null(content)) {
   
   
    img_links <- parse_page(content)
    if (length(img_links) > 0) {
   
   
      dir.create("images", showWarnings = FALSE)
      download_images(img_links)
    } else {
   
   
      cat("No images found on the page.\n")
    }
  } else {
   
   
    cat("Failed to fetch page content.\n")
  }
}

# ִ��������
main()

��ʵ��޸Ĳɼ��ݺ��ף��֮��˳��ǰ�У�

�ھ��籦�أ�R��XML��ץȡ www.sohu.com ͼƬ

ժҪ

1. ��

2. ��£�ʹ�� R �� XML ��ȡͼƬ

2.1 ׼��

2.2 ��д��

��

��

��ؿγ�

��ص��

��ʵ�鳡��

�ھ����籦�أ�R��XML����������ץȡ www.sohu.com ͼƬ

ժҪ

1. ����

2. �������£�ʹ�� R �� XML ����ȡͼƬ

2.1 ׼������

2.2 ��д����

��������

��������

��ؿγ�

��ص�����

���ʵ�鳡��

�ھ��籦�أ�R��XML��ץȡ www.sohu.com ͼƬ

1. ��

2. ��£�ʹ�� R �� XML ��ȡͼƬ

2.1 ׼��

2.2 ��д��

��

��

��ص��

��ʵ�鳡��