��Խ��棺��PHPץȡ��Ƹ��Ϣ-��ƿ��

��Խ��棺��PHPץȡ��Ƹ��Ϣ

2024-04-09 23

��Ȩ

��Ȩ��

��ɰ��ʵ��ע��û��Է��ף��Ȩ��ԭ��У��ƿ��ӵ��Ȩ��಻�е��Ӧ��Ρ��鿴�� ƿ��û��Э�� ƿ��֪ʶ��Ȩ��ָ��ֱ��ӳ�Ϯ��ݣ��д ��ȨͶ�߱��оٱ��һ��ʵ��ɾ��Ȩ��ݡ�

��漰�Ĳ�Ʒ

ʵʱ�� Flink �棬5000CU*H 3��

�� Elasticsearch �棬2��4GB��߹�� 1��

��ݿ��ƽ̨ DataWorks��ʱ��

��飺 ʹ��PHP��IP��Զ��ɼ�51job��վ��Ƹ��Ϣ��ע��˾��ְλ�ʹ��ݴ洢ΪCSV��ƸЧ�ʣ��ʡ��Դ��ʾ��չʾ��ô��HTML��ȡ��Ϣ��˷��˲��г��鱨��ȡ��ҵ��Ƹ��ƶ��ע��ʵ��Ӧ��迼�Ǵ��Ӧ��վ�ṹ�仯��

��.png

��Դ��棬��Ч��ݲɼ��Ϊ��˾�ṩ��˲Ŷ��졣ͨ��Ƹ��վ�ϵ�ְλ��Ϣ��ԴרԱ��˽��г��ϵ��˲Ź��Լ��ͬ��ҵ��ְλ�ľ��״��ݷ��ҵ�ƶ��Ӿ�׼��Ƹ��ԣ��Ӷ��ƸЧ�ʺͳɹ��ʡ�
ͬʱ��ӹ�˾��ĽǶ��PHP��Խ��ݲɼ��Ƹ��̵��Զ��̶ȣ��ɱ��ʱ��ɱ��Զ��ݲɼ��ʹ��Ƹ��Ա��רע��ɸѡ��Ժ��ʵĺ�ѡ�ˣ��ǻ��Ѵ��ʱ��ֶ��ռ��ְλ��Ϣ�ϡ��ⲻ��ƸЧ�ʣ��ܹ�Ϊ��˾��ʡ��Դ��徺��
��ˣ�ͨ��PHP��Խ��Ƹ��վ��ݲɼ��Ϣ�洢ΪCSV�ļ��ʽ��Ϊ��ҵ�ṩ��ȫ�桢��ʱ��˲��г��鱨��Ϊ��Ƹ��˲Ź��ṩ��֧�֣��ҵʵ��˲�ս��ҵ��Ŀ��Ч�Խӡ�

��

PHP��һ�ֹ㷺ʹ�õĿ�Դ��˽ű��ԣ��ر��ʺ��Web��Ƕ��HTML��ʹ�á��PHP��ҳ��ݵĲɼ��ǿ��Ա�д�ű��Զ��ȡ��վ�ϵ��ݡ��ڱ��У��ǽ�ʹ��PHP��IP��ɼ�51job��վ��Ƹ��Ϣ��

ϸ��

�ɼ��У��ǽ��ص��ע��Ҫ��Ϣ��˾��Ϣ��ְλ��Ϣ�ʹ��һ��򵥵�PHP�ű��չʾ��ʵ�ֻ��ҳ�ɼ��ܣ�


<?php
// ��ţ�����������ǿ�����ô�����������Ϣ
$proxy = '����IP:�˿�';
$proxyAuth = '�û���:����';

// ��ʼ��cURL�Ự
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.51job.com/');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_PROXY, $proxy);
curl_setopt($ch, CURLOPT_PROXYUSERPWD, $proxyAuth);

// ִ��cURL�Ự
$html = curl_exec($ch);
if (curl_errno($ch)) {
   
   
    die('Curl error: ' . curl_error($ch));
}
curl_close($ch);

// ʹ��DOMDocument����HTML����
$dom = new DOMDocument();
libxml_use_internal_errors(true);
$dom->loadHTML($html);
libxml_clear_errors();

// ʹ��XPath������Ƹ��Ϣ
$xpath = new DOMXPath($dom);
$jobListings = $xpath->query("//div[contains(@class, 'job_listing')]");

// ׼��CSV�ļ�
$csvFile = fopen('jobs.csv', 'w');
fputcsv($csvFile, ['��˾����', 'ְλ����', 'н�ʷ�Χ']);

// ��������ȡ��Ϣ
foreach ($jobListings as $job) {
   
   
    $companyInfo = $xpath->query(".//div[@class='company_name']", $job)->item(0)->nodeValue;
    $positionInfo = $xpath->query(".//div[@class='position']", $job)->item(0)->nodeValue;
    $salaryInfo = $xpath->query(".//div[@class='salary']", $job)->item(0)->nodeValue;

    // д��CSV�ļ�
    fputcsv($csvFile, [$companyInfo, $positionInfo, $salaryInfo]);
}

// �ر�CSV�ļ�
fclose($csvFile);

echo "��Ƹ��Ϣ�ѳɹ����浽jobs.csv�ļ��С�";
?>

��У��ĵ�ַ��֤��Ϣ��Ȼ��ǳ�ʼ��һ��cURL�Ự��Ӧ��ѡ���ʹ�á�ִ��cURL�Ự��ǽ��õ��ҳ��HTML��ݡ��Ҫ��ЩHTML��ݣ��ȡ��Ҫ��ݣ��䱣�浽CSV�ļ��С�
��ȷ��ķ��ȷ��PHP��cURL��չ��Ա�ű��ܹ��С��⣬��վ�ṹ��ܻᷢ��仯��Ҫ��ʵ�ʵ�HTML�ṹ��XPath��ѯ��

��

ͨ��ʹ��PHP�ʹ��IP��ǿ��Ч�زɼ��Ƹ��վ��ݡ��ַ��԰��ǻ�ȡ��µ��Ƹ��Ϣ��Ϊ��ݷ��г��о��ṩ֧�֡��ע�⣬��Ϊʾ��δ��Ĵ��ݽ��߼��ʵ��Ӧ��У��Ҫ��ʵ��Ӧ�ĵ��ơ�

��Խ��棺��PHPץȡ��Ƹ��Ϣ

��

ϸ��

��

��ѧϰ

��

��

��ؿγ�

��ص��

��ʵ�鳡��

��Խ���棺��PHPץȡ��Ƹ��Ϣ

����

ϸ��

����

�����������ѧϰ

��������

��������

��ؿγ�

��ص�����

���ʵ�鳡��

��Խ��棺��PHPץȡ��Ƹ��Ϣ

��

��

��ѧϰ

��

��

��ص��

��ʵ�鳡��