| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
共有 609 人关注过本帖
标题:如何将《吃喝玩乐之重生1997》全部章节网址和全文爬下来
只看楼主 加入收藏
王咸美
Rank: 1
等 级:新手上路
帖 子:879
专家分:3
注 册:2018-1-4
结帖率:97.49%
收藏
已结贴  问题点数:20 回复次数:15 
如何将《吃喝玩乐之重生1997》全部章节网址和全文爬下来
如何将《吃喝玩乐之重生1997》全部章节网址和全文爬下来?
网页地址为:http://www.
我想将各章节网址存入表文件URL.dbf中  字段有 章节 C(10),标题 C(50),网址 C(60) 最后根据URL.dbf中的 “网址”将小说各章节爬下来,请高手赐教,万分感谢!(前面发过类似帖子,无奈电脑打不开网页,这次小说能在电脑中打开,故再次求助)
图片附件: 游客没有浏览图片的权限,请 登录注册
搜索更多相关主题的帖子: URL 网址 全文 全部 网页 
3 天前 10:45
yiyanxiyin
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:9
帖 子:319
专家分:2312
注 册:2023-6-29
收藏
得分:10 
问ds嘛:
程序代码:
# 定义小说页面URL
$novelUrl = "http://www./105790648/"

# 设置请求头,模拟浏览器访问
$headers = @{
    "User-Agent" = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    "Accept" = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
    "Accept-Language" = "zh-CN,zh;q=0.9,en;q=0.8"
}

try {
    Write-Host "正在下载网页内容..." -ForegroundColor Yellow
    
    # 使用Invoke-WebRequest下载网页内容
    $response = Invoke-WebRequest -Uri $novelUrl -Headers $headers -UseBasicParsing
    
    # 获取HTML内容
    $htmlContent = $response.Content
    
    Write-Host "网页下载成功!" -ForegroundColor Green
    
    # 创建HTML文档对象
    $html = New-Object -ComObject "HTMLFile"
    $html.IHTMLDocument2_write($htmlContent)
    
    # 查找所有章节链接
    $chapterLinks = $html.getElementsByTagName("a") | Where-Object {
        $_.href -like "*/105790648/*.html" -and $_.title -match "^第\d+章"
    }
    
    Write-Host "找到 $($chapterLinks.Count) 个章节链接" -ForegroundColor Cyan
    
    # 提取章节信息
    $chapters = @()
    foreach ($link in $chapterLinks) {
        $chapters += [PSCustomObject]@{
            ChapterNumber = if ($link.title -match "第(\d+)章") { [int]$matches[1] } else { 0 }
            Title = $link.title
            URL = $link.href
        }
    }
    
    # 去重并按照章节号排序
    $uniqueChapters = $chapters | Sort-Object ChapterNumber -Unique
    
    # 输出结果
    Write-Host "《吃喝玩乐之重生1997》章节列表(共 $($uniqueChapters.Count) 章)" -ForegroundColor Green
    Write-Host "=" * 80
    
    # 显示所有章节
    $uniqueChapters | Format-Table -Property ChapterNumber, Title, URL -AutoSize
    
    # 导出到CSV文件
    $csvPath = "吃喝玩乐之重生1997_章节列表.csv"
    $uniqueChapters | Export-Csv -Path $csvPath -NoTypeInformation -Encoding UTF8
    Write-Host "章节信息已导出到: $csvPath" -ForegroundColor Yellow
    
    # 显示统计信息
    Write-Host "`n统计信息:" -ForegroundColor Cyan
    Write-Host "总章节数: $($uniqueChapters.Count)" -ForegroundColor White
    Write-Host "第一章: $(($uniqueChapters | Sort-Object ChapterNumber | Select-Object -First 1).Title)" -ForegroundColor White
    Write-Host "最新章: $(($uniqueChapters | Sort-Object ChapterNumber -Descending | Select-Object -First 1).Title)" -ForegroundColor White
    
} catch {
    Write-Host "错误: $($_.Exception.Message)" -ForegroundColor Red
    Write-Host "可能的原因:" -ForegroundColor Red
    Write-Host "1. 网络连接问题" -ForegroundColor Red
    Write-Host "2. 网站访问限制" -ForegroundColor Red
    Write-Host "3. 网页结构发生变化" -ForegroundColor Red
}
  以上为powershell代码, 执行通过
3 天前 11:44
王咸美
Rank: 1
等 级:新手上路
帖 子:879
专家分:3
注 册:2018-1-4
收藏
得分:0 
谢谢!windows xp系统,IE浏览器,用VFP代码如何爬下来?

[此贴子已经被作者于2025-11-20 16:25编辑过]

3 天前 12:09
yiyanxiyin
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:9
帖 子:319
专家分:2312
注 册:2023-6-29
收藏
得分:0 
你这个网页就是纯文本解析就可以了, 完全可以不用解析html, 页面内容下载后直接使用正则分析, 提取文本,  这样更通用高效,  如果那种js动态生成的html, 你需要解析html, 或者分析js的数据源,比如百度文库,微信读书可能都是加了密或者编了码的,解析html是没用的, 文字显示在canvas上,没法从canvas上取到文字, 你还得分析js的数据来源, js代码是如何将文字显示出来的,  这些就不是那么容易了,你要分析清楚不是不可能, 那是相当复杂,  但终极大法就是傻瓜法:截屏ocr, 现在ocr对纯文字的准确度已经非常高了,只是你可能需要GPU

[此贴子已经被作者于2025-11-20 17:11编辑过]

3 天前 16:57
王咸美
Rank: 1
等 级:新手上路
帖 子:879
专家分:3
注 册:2018-1-4
收藏
得分:0 
谢谢指点!
3 天前 21:11
foxfans
Rank: 5Rank: 5
等 级:贵宾
威 望:15
帖 子:120
专家分:333
注 册:2021-10-23
收藏
得分:0 
一问一答~~
3 天前 21:19
hsfisher
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:181
专家分:131
注 册:2009-4-26
收藏
得分:0 
种个草,学习学习
前天 08:28
王咸美
Rank: 1
等 级:新手上路
帖 子:879
专家分:3
注 册:2018-1-4
收藏
得分:0 
这次要下载的小说《吃喝玩乐之重生1997》与之前下载的小说《仙道九绝》有所不同:
每个章节网址没有规律可循;
每个章节大多有三页,可能还有两页、一页的情况;
另我的浏览器是IE浏览器,系统是windows xp。
不知如何下载? 恳请高手不吝赐教,万分感谢!!!

[此贴子已经被作者于2025-11-21 09:22编辑过]

前天 08:35
yiyanxiyin
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:9
帖 子:319
专家分:2312
注 册:2023-6-29
收藏
得分:0 
不要管章和一章多少页, 从整本书的第一页开始,每一页都有下一页的链接   (页面中的“下一章”实际上是下一页)
前天 10:06
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:451
帖 子:10899
专家分:43509
注 册:2014-5-20
收藏
得分:0 
回复 8楼 王咸美
哪个章节有多页?
具体问题要准确提出来,怕人家没时间去模糊查找。
前天 19:39
快速回复:如何将《吃喝玩乐之重生1997》全部章节网址和全文爬下来
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.021047 second(s), 11 queries.
Copyright©2004-2025, BC-CN.NET, All Rights Reserved