【数据采集与AI分析】突破挑战 抢占先机 亮数据浏览器、亮网络解锁器 + Kimi数据采集与分析实战

数据采集数据处理数据分析
一、引言

数据不仅仅是一组数字或文字,而是企业决策的关键,在当今数字化的世界里,数据采集是任何企业成功的基石之一。

picture.image

在行业竞争激烈,市场变化快速的跨境电商领域,数据采集更是至关重要。通过数据采集,跨境电商企业可以了解不同国家和地区的市场需求和消费习惯,了解目标市场、客户行为和行业趋势,进而优化产品定位和营销策略,还可以帮助了解国际竞争对手的动态,并及时调整自己的策略以保持竞争优势。

然而,数据采集并不总是一帆风顺,由于涉及到不同的国家和地区,跨境电商领域中数据的获取可能会受到语言文化、网页结构复杂、网站屏蔽、OCR验证等方面的限制。此外,海量数据的采集效率也是一个挑战。本章将使用跨境电商数据采集工具,以Shopee、Temu为范例进行实战。

二、数据采集工具

工欲善其事,必先利其器,首先介绍下本次实战用到的两款采集工具:

2.1、亮数据浏览器(Scraping Browser)

picture.image

亮数据网络解锁器是一款具有内置网站解锁功能的有头浏览器,其可以自动管理所有网站深层解锁操作,包括:CAPTCHA解决、浏览器指纹识别、自动重试、标头选择、cookie和Javascript渲染等功能。亮数据浏览器无需扩展内部基础架构,非常适合大批量网页数据抓取项目。另外,亮数据浏览器通过使用 AI 技术,不断调整、自动学习绕过机器人检测系统,实现比代理更高的解锁成功率,告别屏蔽麻烦。

2.2、亮网络解锁器(Web Unlocker)

picture.image

亮网络解锁器则是一种代理解锁解决方案,其构建于7200万住宅IP网络,能够自动解锁网站并采集数据。凭借其出色的真人模拟、设备属性模仿、数据采集、网络指纹校对、校准参照标头、设置请求间隔、识别蜜罐陷阱以及自动延迟和陷阱识别等功能,亮网络解锁器为用户提供了一个高效、安全的网络解锁解决方案。

三、跨境电商数据采集实战

3.1、案例一、Shopee数据采集流程

3.1.1、数据采集需求分析

Shopee是东南亚领航电商平台,覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西等十余个市场,Shopee平台上的商品种类繁多,从日用品、电子产品、时尚服饰到书籍和家居装饰等应有尽有,几乎能够满足用户的所有购物需求。

首先进入Shopee官网,在搜索框中输入shoes进行搜索,随着搜索结果的加载,页面展示出了与“shoes”相关的商品列表。这些商品以图片和文字的形式呈现,每张图片都展示了鞋子的外观,而文字则包含了鞋子的品牌、型号、价格等关键信息。

picture.image

对于用户来说,商品列表能够帮助用户快速筛选出符合自己需求的商品,而对于出海商家,商品搜索列表是按照一定的排序规则展示的,这些规则可能包括商品的销量、评价、价格等因素。为了更全面地了解鞋子市场的状况,我计划进一步分析这些排序规则,并尝试找出影响商品排名的关键因素。

3.1.2、配置与环境安装

首先进入亮数据,注册登录账户,为了让朋友们能够试用,我特意申请了10美金的抵用券,成功注册账户,并登录后在用户界面里输入折扣代码即可享受抵扣!

折扣代码:kelejiabing

访问页面:https://www.bright.cn/products/scraping-browser/?utm_source=brand&utm_campaign=brnd-mkt_cn_csdn_kelejiabing&promo=kelejiabing

首先进入控制台页面,点击基础设施,然后点击添加,选择亮数据浏览器。

picture.image

进入亮数据浏览器配置页面后,填写解决方案名称,然后添加到控制台中。

picture.image

在控制台中显示通道中有刚刚创建好的亮数据浏览器后,则说明配置成功。

要使用亮数据浏览器,首先需要在本机安装相关依赖环境,下面切换到本机,在Pycharm编辑器或者终端窗口中输入pip3 install playwright,安装playwright。系统会默认安装其相关依赖

picture.image

显示Successfully installed 则说明环境安装成功!

3.1.3、数据采集

首先回到控制台,同样点击代理IP网络和爬虫基础设施,选择刚刚创建好的亮数据浏览器,点击进入详情。

picture.image

进入后,可以发现亮数据浏览器为我们提供了一套完备的解决方案,其包含内置解锁功能和代理,能够使用浏览器自动化API,启动和操控大量爬虫浏览器会话。

picture.image

首先,观察左侧参数栏,主机参数是默认的远程浏览器代理的主机地址和端口。brd.superproxy.io 是服务器的地址,而9222和9515是这个服务监听的端口号。通过这个地址和端口,客户端可以与远程的浏览器实例进行通信。用户名和密码参数用于身份验证,在连接到远程浏览器代理时,用户名用以证明访问权限。IP 参数用于授权可以访问远程浏览器代理的地址。

要使用浏览器,我们需要将本机的IP添加到有使用权限的IP这一栏中。然后点击右下查看代码和集成示例,进入集成示例页面,可以看到,亮数据浏览器为我们提供了Node.js、Python、C#语言,提供了Puppeter、Playwright、Selenium等多种库,这里选择使用Python + Playwright的方法进行设计。

picture.image

首先选择example.com作为目标网站,定位国家为Any country,然后复制代码到test.py文件中,然后使用Python test.py测试一下,输出类似以下内容即成功!

Connecting to Scraping Browser...

Connected! Navigating to https://example.com...

Navigated! Scraping page content...

网页具体的Content内容

picture.image

然后我们将3.1.1中需要采集的Shopee商品数据url即https://shopee.com.my/search?keyword=shoes放到目标网站中,然后模拟老挝用户,如下:

picture.image

左侧生成代码如下(部分信息做了敏感处理):

import asyncio
from playwright.async_api import async_playwright

SBR_WS_CDP = 'wss://brd-customer-hl_*****fe-zone-scraping_browser1-country-la:******************@brd.superproxy.io:9222'


async def run(pw):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating to https://shopee.com.my/search?keyword=shoes...')
        await page.goto('https://shopee.com.my/search?keyword=shoes')
        # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
        # client = await page.context.new_cdp_session(page)
        # print('Waiting captcha to solve...')
        # solve_res = await client.send('Captcha.waitForSolve', {
        #     'detectTimeout': 10000,
        # })
        # print('Captcha solve status:', solve_res['status'])
        print('Navigated! Scraping page content...')
        html = await page.content()
        print(html)
    finally:
        await browser.close()


async def main():
    async with async_playwright() as playwright:
        await run(playwright)


if __name__ == '__main__':
    asyncio.run(main())

然后将代码复制重新输入python 1.py运行,得到完整的content数据如下,完成本节任务!

picture.image

3.2、案例二、Temu数据采集流程

3.2.1、数据采集需求分析

Temu是pdd旗下的跨境电商平台,面向北美、欧洲、澳大利亚等国家和地区的消费者。Temu的名称意为“Team Up,Price Down”,即买得人越多,价格越低,这与pdd平台的理念相似,强调团购和分享带来的价格优势。相比于Shopee,Temu网站设计了很多机制,如:在登录、注册或提交表单等操作时,要求用户输入验证码、通过检测访问请求的IP地址、采用动态页面加载技术等防止异常访问。

picture.image

与Shopee不同,在使用Temu时,虽然能够正常进入首页,但当搜索商品时,系统会跳出验证码,要求正确输入验证码以完成操作。这一机制的主要目的是确认用户不是机器人或自动化脚本,从而有效防止恶意注册、暴力获取数据等不当行为。

picture.image

而亮网络解锁器能在后台完全模拟真实用户操作,能高效绕过验证码的阻止和限制,模拟真实用户和网络指纹,发送并发请求,获得完美畅通的响应。

3.2.2、亮网络解锁器配置

与3.1.1的步骤类似,首先进入控制台页面,点击基础设施,然后点击添加,选择亮网络解锁器。

picture.image

进入亮数据浏览器配置页面后,填写解决方案名称,然后添加到控制台中。

picture.image

3.2.3、数据采集

回到控制台,选择刚刚创建好的亮网络解锁器,点击进入详情。进入后,将本机的IP添加到有使用权限的IP这一栏中。然后点击右下查看代码和集成示例,进入集成示例页面。

picture.image

亮网络解锁器提供了API、浏览器、移动代理等类型,并提供了Chrome、Edge、Safari、Firefox、Android等多种方式。这里选择API方法,选择Python作为语言。

picture.image

首先测试基础网站:http://lumtest.com/myip.json,复制代码到test.py文件中,使用Python test.py测试一下,输出类似以下内容,可以看到成功模拟到芬兰首都赫尔辛基,且为高质量住宅用户。

picture.image

然后将3.2.1当中temu搜索商品的url放入到目标网站里,其完整代码如下所示:

#!/usr/bin/env python
print('If you get error "ImportError: No module named 'six'" install six:\n'+\
    '$ sudo pip install six');
print('To enable your free eval account and get CUSTOMER, YOURZONE and ' + \
    'YOURPASS, please contact sales@brightdata.com')
import sys
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
if sys.version_info[0]==2:
    import six
    from six.moves.urllib import request
    opener = request.build_opener(
        request.ProxyHandler(
            {'http': 'http://brd-customer-h******fe-zone-web_unlocker1-country-fi:rf****7mp@brd.superproxy.io:22225',
            'https': 'http://brd-customer-hl****1fe-zone-web_unlocker1-country-fi:rfk****p@brd.superproxy.io:22225'}))
    print(opener.open('https://www.temu.com').read())
if sys.version_info[0]==3:
    import urllib.request
    opener = urllib.request.build_opener(
        urllib.request.ProxyHandler(
            {'http': 'http://brd-customer-hl_0*******e-zone-web_unlocker1-country-fi:r******p@brd.superproxy.io:22225',
            'https': 'http://brd-customer-hl_0******1fe-zone-web_unlocker1-country-fi:rf********p@brd.superproxy.io:22225'}))
    print(opener.open('https://www.temu.com').read())

输入以下content,成功运行!

picture.image

3.3、Kimi大模型数据分析

拿到数据后,就可以采集到的数据开始分析了,这里我们这里选择将其写入txt,然后将txt文件输入到kimi大模型中,让强大的AI帮我们对数据进行分析。

picture.image

首先对数据进行整体分析:

picture.image

然后可以对鞋子的销量和价格进行分析:

picture.image

其次可以让Kimi根据这份数据,设计商品标题、目标人群、定位特点和价格区间:

picture.image

还可以让Kimi分析词频,了解目标市场的消费者需求,选择符合他们兴趣和喜好的产品,专注于热门、高需求的品类,根据目标市场的特点和消费者需求,选择具有竞争力的价格并制定合适的营销策略。

picture.image

四、亮数据Bright Data数据采集体验

经过以上实战,可以发现:

  1. 相较于内置代理和解锁技术的自动浏览器或无头浏览器,亮数据浏览器展现出了更强大的功能。通过使用亮数据浏览器,用户只需在管理界面上设置好抓取任务和参数,即可一次性完成多个会话的抓取工作,轻松实现批量数据抓取,大大节省了时间和人力成本。这种强大的自动化能力使得亮数据浏览器在应对各种网络挑战时表现出色。
  2. 亮网络解锁器能够高度模拟浏览网页、点击链接、数据抓取等操作,能够实现更为精准和高效的数据抓取。另外,亮网络解锁器能够智能管理IP发送请求率,根据目标网站的规则和限制,自动调整请求频率,确保不会因请求过多而触发IP屏蔽机制。无论是对于数据科学家、网络开发者还是普通用户来说,它都是一个值得信赖的助手。

在数据采集领域,一个稳定、高效且灵活的解决方案对于企业和开发者来说至关重要。而亮数据正是这样一个提供全面的产品线、高度可定制性和灵活性、良好的用户体验以及专业的技术支持的平台。

在这里,我特意为朋友们申请了10美金的抵用券,成功注册账户,并登录后在用户界面里输入折扣代码即可享受抵扣!

折扣代码:kelejiabing

访问页面:https://www.bright.cn/products/scraping-browser/?utm_source=brand&utm_campaign=brnd-mkt_cn_csdn_kelejiabing&promo=kelejiabing

如有问题,可以关注“Bright_Data”亮数据官微,联系后台客服。

无论是网页解锁解决方案还是代理网络,亮数据都提供了丰富多样的选择,满足不同用户的需求。其高度可定制性和灵活性使用户可以根据自己的需求精准集成业界最先进的代理产品和基础架构,实现个性化的数据采集方案。无论是解锁逻辑、代理流量管理还是用户访问控制,亮数据都提供了丰富的功能和工具,让用户能够根据自己的需求进行灵活配置。

picture.image

0
0
0
0
相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论