精易论坛

标题: 如何正则提取文本中的商品信息? [打印本页]

作者: fksdehfk778    时间: 2025-2-17 12:53
标题: 如何正则提取文本中的商品信息?

我的核心诉求就是 京东搜索商品关键词页面,然后提取出来搜索结果里面的商品。
我看了一下,直接ctrl+s  就可以把整个网页保存下来
天然气专用燃气灶 - 商品搜索 - 京东.mhtml
比如整个。。

然后我再源码里面可以看到商品的链接,id,标题,图片之类的信息。 天然气专用燃气灶 - 商品搜索 - 京东.zip (1.17 MB, 下载次数: 5)
然后怎么写个正则或者别的啥方式给他提取出来?

作者: 柠檬不酸i    时间: 2025-2-17 14:39
可以使用类_DOM解析html,然后使用选择器提取,或者可以用Equery:https://125.confly.eu.org/forum.php?mod ... mp;highlight=equery
作者: 柠檬不酸i    时间: 2025-2-17 14:40
可以使用类_DOM对保存的html进行解析,然后选择器提取,或者可以用Equery:https://125.confly.eu.org/forum.php?mod ... mp;highlight=equery
作者: waweiggfnh    时间: 2025-2-17 15:14
<li data-sku="(\d+)"[\s\S]*?<a target="_blank" title="(.*?)" href="(.*?)">[\s\S]*?src="(.*?)">[\s\S]*?data-price="(\d+)">(.*?)</i>[\s\S]*?<em>(.*?)</em>


作者: 编程阿狸    时间: 2025-2-17 21:36

<li data-sku="(\d+)"[\s\S]*?<a target="_blank" title="(.*?)" href="(.*?)">[\s\S]*?src="(.*?)">[\s\S]*?data-price="(\d+)">(.*?)</i>[\s\S]*?<em>(.*?)</em>




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4