linux 系统作为一款著名的开源操作系统,用它来完成类似数据分析任务是再自然不过的事情了。本文即介绍在Linux系统下,如何快速而轻松地统计重复行。
首先,要统计文件中的重复行,可以使用UNIX 下的sort命令,即`sort -k2 filename`,假设文件中,有两列字段,现在要按照第二列字段进行排序。-k2 指定按照第二字段排序,用空格隔开,filename为待排序的文件。
接下来,要统计排序后的文件中的重复行了,使用“uniq”命令,即`uniq -c filename`, -c 指定统计每行重复次数。filename为排序后的文件。执行命令后,会出现类似这样的结果:
*1 apple
*2 orange
*3 banana
表明文件里有1次出现“apple”,2次出现“orange”,3次出现“banana”。
有些情况下,可能要先删除重复行,再按照其它条件筛选数据,此时可以结合排序与uniq命令,使用“uniq -u filename”,只删除不重复的行,留下重复行,处理过程为sort+uniq+grep。首先`sort -k2 filename`,对文件进行排序,`uniq -u filename` ,删除文件中的不重复行,然后用 grep 命令先相应条件,获取筛选后的数据,如`grep pattern filename`,即可得到需要的比较准确而且可信的结果。
综上所述,本文介绍了如何在Linux下轻松统计重复行。在实际处理过程中,只要结合sort、uniq和grep等命令,就可以快速得到准确的结果。
香港服务器选创新互联,2H2G首月10元开通。
创新互联(www.cdcxhl.com)互联网服务提供商,拥有超过10年的服务器租用、服务器托管、云服务器、虚拟主机、网站系统开发经验。专业提供云主机、虚拟主机、域名注册、VPS主机、云服务器、香港云服务器、免备案服务器等。
网页题目:『Linux下轻松统计重复行』(linux统计重复行)
分享路径:http://www.shufengxianlan.com/qtweb/news12/421012.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联