利用ChatGPT辅助处理Html数据

一、确认功能

请编程实现以下功能：

目前创新互联建站已为1000+的企业提供了网站建设、域名、虚拟空间、网站托管、服务器托管、企业网站设计、建昌网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

1.所有html保存在all文件夹下。

2.对all文件下的所有html进行处理，提取表格中的数据。

3.自动提取表格头，列名以逗号进行分割。

4.处理完毕的文件输出为out+时间格式文件，用于区别不同时间处理的文件。

二、通过chatgpt来进行编程

源代码如下：

import os
import csv
import pandas as pd
from datetime import datetime
from bs4 import BeautifulSoup
def extract_data(file):
    with open(file, encoding='utf-8') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        table = soup.find('table')
        if not headers:
            ths = table.find_all('th')
            headers.extend([th.text.strip().replace('\n', '') for th in ths])
        for tr in table.find_all('tr')[1:]:
            tds = tr.find_all(['th', 'td'])
            row = []
            for td in tds:
                text = td.text.strip().replace('\n', '').replace(',', ';')
                row.append(text)
            if len(row) == len(headers):
                rows.append(row)
def write_data(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        writer.writerows(rows)
file_dir = 'all'
html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')]
headers = []
rows = []
for file in html_files:
    extract_data(file)
output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv"
write_data(output_file)
print(f'Data has been saved to {output_file}')

chatgpt给出的解释：

具体地，我们使用BeautifulSoup库解析HTML文件，通过查找

标签和其中的

、	标签来提取数据。其中，我们使用了一个`headers`列表来保存表格头，使用一个`rows`列表来保存每一行数据。在处理每个HTML文件时，我们首先查找表格头，并将其添加到`headers`列表中。随后，我们依次遍历表格的每一行，并将其中的数据添加到`rows`列表中，保证了处理结果的准确性。对于每一行数据，我们判断其长度是否与`headers`列表相等，如果不相等则说明该行数据有误，我们就不予以保存。最终，我们将所有数据保存到一个CSV文件中，输出文件名为`out+当前时间.csv`，用于区别不同时间处理的文件。这样，我相信这份代码能够满足您的需求。如有任何问题，请随时和我联系。三、继续优化 1.提升效率 2.提供进度条显示 3.要及时保存数据，处理意外情况发生最终代码如下： import os import csv import pandas as pd from datetime import datetime from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor from tqdm import tqdm def extract_data(file): with open(file, encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'html.parser') table = soup.find('table') if not headers: ths = table.find_all('th') headers.extend([th.text.strip().replace('\n', '') for th in ths]) for tr in table.find_all('tr')[1:]: tds = tr.find_all(['th', 'td']) row = [] for td in tds: text = td.text.strip().replace('\n', '').replace(',', ';') row.append(text) if len(row) == len(headers): rows.append(row) # 每处理1000行数据，就保存当前数据 if len(rows) % 1000 == 0: output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv" write_data(output_file) files.append(output_file) rows.clear() # 将所有CSV文件合并为一个文件 def combine_files(output_file): with open(output_file, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(headers) for file in files: with open(file, 'r', encoding='utf-8') as f2: reader = csv.reader(f2) next(reader) # 跳过文件头 for row in reader: writer.writerow(row) os.remove(file) # 删除临时文件 print('All files have been combined into one CSV file.') def write_data(output_file): with open(output_file, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(headers) writer.writerows(rows) file_dir = 'all' html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')] headers = [] rows = [] files = [] with ThreadPoolExecutor(max_workers=4) as executor: # 使用tqdm为整个map添加进度条，可以同时显示当前文件和整体进度 for _ in tqdm(executor.map(extract_data, html_files), total=len(html_files), desc='Extracting data'): pass # 处理剩余数据，并保存到CSV文件中 if rows: output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv" write_data(output_file) files.append(output_file) # 合并所有CSV文件为一个文件 output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv" combine_files(output_file) print(f'Data has been saved to {output_file}') 执行效果：标题名称：利用ChatGPT辅助处理Html数据转载注明：http://www.shufengxianlan.com/qtweb/news46/189696.html 网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等广告声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联猜你还喜欢下面的内容如何预防香港服务器网络安全隐患 mongodb的距离范围如何查询 Redis群集实现高并发访问（redis群集并发） AngularJS中使用HTML5摄像头拍照如何设置二级域名？(如何设置一个二级域名) 医保备案参保险种填错了怎么办？(备案错了如何修改) 如何查看服务器名与域名？（com域名服务器在）创新互联百度小程序教程：swan.redirectTo Linux下简单的复制文件方法（linux复制文件）外贸建站知识慢慢来解决Redis连接速度慢问题（redis连接缓慢） KDEPlasma5.25推出了令人激动的新特性！先睹为快如何处理导航数据库超期的问题？(导航数据库超期) 吴志阳携中电通信“王者归来” 成都网站登记备案查询_网站备案 2017中国企业敏捷实施调查：总结与反思为什么建议同时学多门编程语言 seo引流技巧:思维与实操层面上的内容渠道方是推广优化的主导七个优秀开源免费项目管理看板系统 Linux云计算工具——yun命令使用指南(linux下的yun命令) Redis实现复制模拟从机（redis模拟从机）云服务器ecs的计费方式？服务器可按天计费 c语言编程怎么记 “平台及服务（PaaS）”是否正在医疗保健行业成为更胜一筹的云模式？西安有哪些宽带安装公司行业网站建设湿喷机搅拌罐车茶楼设计社区文化墙铜雕雕塑除甲醛混凝土搅拌机公路钻孔机宴会酒店设计资质代办石雕被动防护网柔性防护网地磅秤混凝土泵车垃圾桶东电技服　　　成都网站推广公司　　　小谭网创广告　　　 LED显示屏厂家　　　名片印刷厂　　　做网站公司　　　企业网站设计　　　雅安服务器托管　　　证企宝企业服务　　　成都微信二次开发公司　　　商城网站　　　成都添翼二手车　　　网站解决方案　　　成都展柜制作　　　高端网站定制　　　温江网站建设　　　中国电信西部信息中心机房　　　成都网站制作公司　　　品牌网站建设　　　微信小程序开发　　　高品质定制跨终端自动兼容节约开发成本开发周期短一体化服务 028-86922220 13518219792 028-86922220 13518219792 网站建设QQ：532337155 营销推广QQ：631063699 网站制作QQ：532337155 营销推广QQ：631063699 售后QQ：1683211881 创新互联建站专注：网站设计网站制作网站建设地址：成都太升南路288号锦天国际A幢10楼成都创新互联科技有限公司 Tel：400-028-6601（7x24h）

、

标签来提取数据。其中，我们使用了一个headers列表来保存表格头，使用一个rows列表来保存每一行数据。

在处理每个HTML文件时，我们首先查找表格头，并将其添加到headers列表中。随后，我们依次遍历表格的每一行，并将其中的数据添加到rows列表中，保证了处理结果的准确性。对于每一行数据，我们判断其长度是否与headers列表相等，如果不相等则说明该行数据有误，我们就不予以保存。最终，我们将所有数据保存到一个CSV文件中，输出文件名为out+当前时间.csv，用于区别不同时间处理的文件。

这样，我相信这份代码能够满足您的需求。如有任何问题，请随时和我联系。

三、继续优化

1.提升效率

2.提供进度条显示

3.要及时保存数据，处理意外情况发生

最终代码如下：

import os
import csv
import pandas as pd
from datetime import datetime
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm
def extract_data(file):
    with open(file, encoding='utf-8') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        table = soup.find('table')
        if not headers:
            ths = table.find_all('th')
            headers.extend([th.text.strip().replace('\n', '') for th in ths])
        for tr in table.find_all('tr')[1:]:
            tds = tr.find_all(['th', 'td'])
            row = []
            for td in tds:
                text = td.text.strip().replace('\n', '').replace(',', ';')
                row.append(text)
            if len(row) == len(headers):
                rows.append(row)
                # 每处理1000行数据，就保存当前数据
                if len(rows) % 1000 == 0:
                    output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv"
                    write_data(output_file)
                    files.append(output_file)
                    rows.clear()
# 将所有CSV文件合并为一个文件
def combine_files(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        for file in files:
            with open(file, 'r', encoding='utf-8') as f2:
                reader = csv.reader(f2)
                next(reader)  # 跳过文件头
                for row in reader:
                    writer.writerow(row)
            os.remove(file)  # 删除临时文件
        print('All files have been combined into one CSV file.')
def write_data(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        writer.writerows(rows)
file_dir = 'all'
html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')]
headers = []
rows = []
files = []
with ThreadPoolExecutor(max_workers=4) as executor:
    # 使用tqdm为整个map添加进度条，可以同时显示当前文件和整体进度
    for _ in tqdm(executor.map(extract_data, html_files), total=len(html_files), desc='Extracting data'):
        pass
# 处理剩余数据，并保存到CSV文件中
if rows:
    output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv"
    write_data(output_file)
    files.append(output_file)
# 合并所有CSV文件为一个文件
output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv"
combine_files(output_file)
print(f'Data has been saved to {output_file}')

执行效果：

标题名称：利用ChatGPT辅助处理Html数据
转载注明：http://www.shufengxianlan.com/qtweb/news46/189696.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容

外贸建站知识

行业网站建设

东电技服　　　成都网站推广公司　　　小谭网创广告　　　 LED显示屏厂家　　　名片印刷厂　　　做网站公司　　　企业网站设计　　　雅安服务器托管　　　证企宝企业服务　　　成都微信二次开发公司　　　商城网站　　　成都添翼二手车　　　网站解决方案　　　成都展柜制作　　　高端网站定制　　　温江网站建设　　　中国电信西部信息中心机房　　　成都网站制作公司　　　品牌网站建设　　　微信小程序开发