excel中cas号或中文名称自动翻译成英文名
EXCEL不可能自动进行中译英
首先要有一张中英文及CSA号的对照表
然后用VLOOKUP函数进行查找
假设对照表在SHEET2,中文名在A列,CSA号在B列,英文名在C列
那么公式为:
=VLOOKUP(中文名, SHEET2!A:C, 3, 0)
=VLOOKUP(CSA号, SHEET2!B:C, 2, 0)
打开EXCEL。
首先将Excel打开,将编辑数据格式为第一列输入点,然后在第二列输入编码,第三列为E坐标,第四列为N坐标,第五列为高程。在数据编辑好了以后开始保存为。CSV文件,用记事本打开。CSV文件就可以看见需要的Cass格式,CSV文件修改后加上后缀。dat随后保存就可以了。
CAS是CentralAuthenticationService的缩写,中央认证服务,一种独立开放指令协议。CAS是Yale大学发起的一个开源项目,旨在为Web应用系统提供一种可靠的单点登录方法,CAS在2004年12月正式成为JA-SIG的一个项目。
例如A列名字,B列CAS号,原来的数据在第一行到第十行。
A11你输入名字,B11输入这个公式。=VLOOKUP(A11,A1:B10,2,0)
后面A列输入名字,B列下拉B11的公式就可以啦。
选择要设置格式的单元格。
单击“格式”菜单上的“单元格”,然后单击“数字”选项卡。
在“分类”列表中,单击“自定义”。
在“类型”框中,编辑数字格式代码以创建所需的格式,这里输入"CA"@"P60AA0AA"
然后确定返回单元格,此时若输入SF56,就会得到CASF56P60AA0AA
若输入DA78,就会得到CADA78P60AA0AA
如果输入的是“"CA"??"0"??"P60AA0AA"”,只针对数字
再返回单元格,若输入4321,就会得到“CA43021P60AA0AA”
怎么样在两段文本中间加0还没有想到,上面只是对解决你的问题的一种思路,因为还是不很了解你的意图,希望对你有所帮助
建议你
先把左右这三部分全部整理到左边去
按你说的CAS number为关键排序
用函数index()或vlookup()索引到同一行上去。
=index(A:A,small(if((isnumber(find("CAS",B$1:B$100)))*(D$1:D$100<>0),row($1:$100),4^8),row()))&""
C列,可以使用公式(如在C2输入公式往下拉)
=SUBSTITUTE(RIGHt(B2,LEN(B2)-FIND("(CAS",B2)-7),")","")
如果要实现红色删除效果,需要使用VBA或者宏
Sub Macro1()'
' Macro1 Macro
'
Dim n, c
n = ActiveSheet.Columns(2).Find("*", , , , 1, 2).Row
For i = 2 To n
c = WorksheetFunction.Find("(CAS ", Cells(i, 2))
With cell(i, 2).Characters(Start:=c, Length:=Cells(i, 2) - c).Font
.Name = "宋体"
.FontStyle = "常规"
.Size = 11
.Strikethrough = True
.Superscript = False
.Subscript = False
.OutlineFont = False
.Shadow = False
.Underline = xlUnderlineStyleNone
.Color = -16776961
.TintAndShade = 0
.ThemeFont = xlThemeFontMinor
End With
Next i
End Sub
A
AAC:MPGE-4高级音频编码
ACC:苹果设备的专属音乐格式
ACE:Ace压缩档案格式
ACT:Microsoft office助手文件
AIF,AIFF:音频互交换文件,Silicon Graphic and Macintosh应用程序的声音格式
ANI:Windows系统中的动画光标
APK:AndroidPackage /Android(安卓)安装包,APK是类似Symbian Sis或Sisx的文件格式。通过将APK文件直接传到Android模拟器或Android手机中执行即可安装
APS:开发环境使用的资源文件,若要修改资源需要修改3个文件,.aps文件.rc文件 Resource.h
ARC:LH ARC的压缩档案文件
ARJ:Robert Jung ARJ压缩包文件
ASD:Microsoft Word的自动保存文件;Microsoft高级流媒体格式(microsoft advanced streaming
format,ASF)的描述文件;可用NSREX打开 Velvet Studio例子文件
ASF:Microsoft高级流媒体格式文件
ASM:汇编语言源文件,Pro/E装配文件
ASP:动态网页文件;ProComm Plus安装与连接脚本文件;Astound介绍文件
AST:Astound多媒体文件;ClarisWorks“助手”文件
avi:Windows视频文件
Axx:ARJ压缩文件的分包序号文件,用于将一个大文件压至几个小的压缩包中(xx取01-99的数字)
A3L:Authorware 3.x库文件
A4L:Authorware 4.x库文件
A5L:Authorware 5.x库文件
A3M,A4M:Authorware Macintosh未打包文件
A3W,A4W,A5W:未打包的Authorware Windows文件
B
BAK:备份文件
BAS:Visual Basic Module VB6模块文件
BAT:批处理文件
BDICT:百度输入法词库文件
BIN:二进制文件,其用途依系统或应用而定
BINHex:苹果的一种编码格式
BMP:Windows或OS/2位图文件
BOOK:Adobe FrameMaker Book文件
BOX:Lotus Notes的邮箱文件
BPL:Borlard Delph 4打包库
BPS:百度输入法皮肤文件
BSP:Quake图形文件
BUN:CakeWalk 声音捆绑文件(一种MIDI程序)
C
C:C代码文件
C0l:台风波形文件
CAB:Microsoft压缩档案文件
CAD:Softdek的Drafix CAD文件
CAM:Casio照相机格式
CAP:压缩音乐文件格式
CAS:逗号分开的ASCⅡ文件
CCB:Visual Basic动态按钮配置文件
CCH:Corel图表文件
CCO:CyberChat数据文件
CCT:Macromedia Director Shockwave投影
CDA:CD音频轨道
CDF:Microsoft频道定义格式文件
CDI:Philip的高密盘交互格式
CDM:Visual dBASE自定义数据模块文件
CDR:CorelDRAW绘图文件;原始音频CD数据文件
CDT:CorelDRAW模板
CDX:CorelDRAW压缩绘图文件;Microsoft Visual FoxPro索引文件
CFG:配置文件
CGI:公共网关接口脚本文件
CGM:计算机图形元文件
CH:OS/2配置文件
CHI:.CHM文件的一个索引,用来支持对应的.CHM文件中的搜索功能,要和同名的.CHM文件放到一起用
CHK:由Windows磁盘碎片整理器或磁盘扫描保存的文件碎片
CHM:HTML格式的帮助文档
CHP:Ventura Publisher章节文件
CHR:字符集(字体文件)
CHT:ChartViem文件;Harvard Graphics矢量文件
CIF:Adaptec CD 创建器 CD映像文件
CIL:Clip Gallery下载包
CIM:SimCity 2000文件
CIN:OS/2改变控制文件用于跟踪INI文件中的变化
CLASS:Java类文件
CLP:Windows 剪贴板文件
CLL:Crick Software Clicker文件
CLS:Visual Basic类文件
CMD:Windows NT,OS/2的命令文件;DOS CD/M命令文件;dBASEⅡ程序文件
COM:操作系统中的二进制可执行文件,可执行文件分两种一种是后辍名为.COM另一种就是.EXE 了,.COM一般用于DOS。
CPI:Microsoft MS-DOS代码页信息文件
CPL:控制面板扩展名,Corel颜色板
CPP:C++代码文件
CPR:Corel提供说明书文件
CPT:Corel 照片-绘画图像
CSS:层叠样式表文档,配合HTML使用,单独专门定义样式表
CST:Macromedia Director Cast文件
CSV:Comma Separated Value逗号分隔值,通常都是纯文本文件
CTL:Visual Basic User Control VB6.0用户自定义控件
CTX:Visual Basic User Control Binary FileVB6.0用户自定义控件二进制缓存文件
CUR:Windows光标文件
D
DAT:数据流格式,DAT文件也是MPG格式的,是VCD刻录软件将符合VCD标准的MPEG-1文件自动转换生成的。也有数据文件的后缀名为.DAT,文件格式不确定,任何文件的后缀名都可以设为.DAT,因为读取数据不是从后缀名判断的,而是从文件格式判断
DB:数据库文件,Thumbs.db是缩略图缓存
DBF:dBASE文件,一种由Ashton-Tate创建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和类似数据库或与数据库有关产品识别;可用数据文件(能被Excel
97打开);Oracle 8.1.x表格空间文件
DBX:DataBearn图像;Microsoft Visual FoxPro表格文件
DCF:数码照相机统一记录格式,DCF 也有音频格式
DCT:Microsoft Visual FoxPro数据库容器
DCU:Delphi编译单元文件
DCX:Microsoft Visual FoxPro数据库容器;基于PCX的传真图像;宏
DIR:MacromediaDirector文件
DLF:一种INI配置文件格式的语言文件
DLL:动态链接库
DOC: Microsoft Word 2003文档文件
DOCX:Microsoft Word 2007文档文件
Perfect文档、Microsoft:Word文档;DisplayWrite文档
DOT:Microsoft Word文档模板
DPL:Borland Delph 3压缩库
DRV:驱动程序
DRW:Micrografx Designer/Draw;Pro/E绘画文件
DSF:Micrografx Designer VFX文件
DSG:DOOM保存的文件
DSM:Dynamic Studio音乐模块(MOD)文件
DSP:Microsoft Developer Studio工程文件
DSQ:Corel QUERY(查询)文件
DST:刺绣机图形文件
DSW:Microsoft Developer Studio工作区文件
DTA:World Bank(世界银行)的STARS数据文件
DTD:SGML文档类型定义(DTD)文件
DTED:地面高度数字数据(图形的数据格式)文件
DTF:Symantec Q&A相关的数据库数据文件
DTM:DigiTrakker模块文件
DUN:Microsoft拔号网络导出文件
DV:数字视频文件(MIME)
DWG:AutoCAD工程图文件;AutoCAD或Generic CADD老版本的绘图格式
DXR:Macromedia Director受保护(不可编辑)电影文件
E
E:易语言代码源文件
EC:易语言模块文件
EDA:Ensoniq ASR磁盘映像
EDD:元素定义文档(FrameMaker+SGML文档)
EDE:Ensoniq EPS磁盘映像
EDK:Ensoniq KT磁盘映像
EDQ:Ensoniq SQ1/SQ2/Ks32磁盘映像
EDS:Ensoniq SQ80磁盘映像
EDV:Ensoniq VFX-SD磁盘映像
EFA:Ensoniq ASR文件
EFE:Ensoniq EPS文件
EFK:Ensoniq KT文件
EFQ:Ensoniq SQ1/SQ2/Ks32文件
EFS:Ensoniq SQ80文件
EFV:Ensoniq VFX-SD文件
EMD:ABT扩展模块
EMF:Windows增强元文件
EML:Microsoft Outlook Express邮件消息(MIME RTC822)文件
EOT:是一种压缩字库,目的是解决在网页中嵌入特殊字体的难题,目前只有微软的IE浏览器支持
EXE:可执行文件(程序)
F
FAV:Microsoft Outlook导航条
FAX:传真类型图像
FCD:虚拟CD-ROM
FDF:Adobe Acrobat表单文档文件
FLA:Macromedia Flash动画源文件
FLAC:无损音频压缩编码
FLV:Flash视频文件
FNE:易语言的其中一种支持库文件,用于在易语言中装载和提供对应的命令和方法,易语言支持库还有FNR格式、NPK格式以及LPK文件包等。
FND:Microsoft Explorer保存的搜索文件(Find applet)
FNR:FNR文件是易语言的其中一种支持库文件,用于在易语言中装载和提供对应的命令和方法,但是与FNE格式支持库不同的是,FNR不带编辑信息,有运行支持代码的支持库。
FON:系统字体
FRM:Visual Basic Form File VB6.0窗体文件
FRT:Microsoft FoxPro报表文件
FRX:Visual Basic表单文本;Microsoft FoxPro报表文件
FXP:经Microsoft FoxPro编译的源文件
G
GDM:铃声、口哨声和声音板模块格式
GetRight:GetRight未完成的下载文件
GHO:Norton 克隆磁盘映像
GID:Windows 95全局索引文件(包括帮助状态)
GiF:动态图片文件
GL:动画格式
GRP:程序管理组
H
H:C/C++ Header 头文件
HEX:Macintosh BinHex2.0文件
HLP:帮助文件;Date CAD Windows帮助文件
HPP:C++程序头文件
HQX:Macintosh BinHex 4.0文件
HT:HyperTerminal(超级终端)
HTM,HTML:超文本文档
HTT:Microsoft超文本模板
HTX:扩展HTML模板
I
ICO:Windows图标
IDX:Microsoft FoxPro相关数据库索引文件;Symantec Q&A相关数据库索引文件;Microsoft Outlook
Express文件
IMG:GEM映像
INC:Include File 引用文件,ASP中也会用到
INF:Windows操作系统下用来描述设备或文件等数据信息的文件
INI:配置文件,ini文件格式适合程序记录一些基本的配置设置
INP:Oracle 3.0版或早期版本的表单源代码
INRS:INRS远程通信声频
INS:InstallShield安装脚本;X-Internet签字文件;Ensoniq EPS字簇设备;Cell/ⅡMAC/PC抽样设备
INT:中间代码,当一个源程序经过语法检查后编译产生一个可执行代码
IOF:Findit文档
IQY:Microsoft Internet查询文件
ISO:根据ISD 9660有关CD-ROM文件系统标准列出CD-ROM上的文件
ISP:X-Internet签字文件
ISS:Inno Setup 项目脚本文件 (Inno Setup 是一种安装包生成工具)
IST:数字跟踪设备文件
ISU:InstallShield卸装脚本
IT:脉冲跟踪系统音乐模块(MOD)文件
ITI:脉冲跟踪系统设备
ITS:脉冲跟踪系统抽样,Internet文档位置
IV:Open Inventor中使用的文件格式
IVD:超过20/20微观数据维数或变量等级文件
IVP:超过20/20的用户子集配置文件
IVT:超过20/20表或集合数据文件
IVX:超过20/20微数据目录文件
IW:Idlewild屏幕保护程序
IWC:Install Watch文档
1、准备一份案例文件表格。
2、双击打开案例文件,进入表格主页。
3、如图所示的工作表中,我们希望通过在A10单元格中输入Excel爱好者姓名来查找该名同学属于哪个地区。B10单元格中的公式为“=VLOOKUP(A10,A2:D6,2,FALSE)”。
4、由于A10中输入了Excel爱好者姓名“小看今朝”,在A2:A6中并没有和它匹配的值,因此出现了“#N/A”错误。
5、修正错误:可以在A10单元格中输入一个A2:A6中存在的Excel爱好者姓名,如“吴姐”,这时错误值 就不见了。
Excel有两种格式,分别为xls和xlsx格式,两种都可以用python的Pandas模块的read_excel方法导入。read_excel方法返回的结果是DataFrame,DataFrame的一列对应着Excel的一列
read_excel方法参数介绍:
(1)sheet_name参数:该参数用于指定导入Excel中的哪一个sheet,如果不填写这个参数,则默认导入第一个sheet
(2)index_col参数:该参数用于指定表格的哪一列作为DataFrame的行索引。从0开始计数
(3)nrows参数:该参数可以控制导入的行数,该参数在导入文件体积较大时比较有用
(4)skipfooter参数:该参数可以在导入数据时,跳过表格底部的若干行
(5)header参数:当使用Pandas的read_excel方法导入Excel文件时,默认表格的第一行为字段名。如果表格的第一行不是字段名。则需要使用该参数设置字段名
(6)usecols参数:该参数可以控制导入Excel表格中的哪些列
(7)names参数:该参数可以对导入数据的列名进行重命名
import pandas as pd# 导入pandas模块并将其缩写
df=pd.read_excel("C:/Users/kzk/Desktop/背景介绍.xlsx")#使用该方法导入数据
df
登录后复制
括号里为本地表格地址,可以通过查看属性进行获取,注意地址的分隔符时反斜杠
df1=pd.read_excel("C:/Users/kzk/Desktop/背景介绍.xlsx",index_col=0)
df1
#取消行索引
登录后复制
df2=pd.read_excel("C:/Users/kzk/Desktop/背景介绍.xlsx",nrows=5)
df2
#导入前五行
登录后复制
df3=pd.read_excel("C:/Users/kzk/Desktop/背景介绍.xlsx",header=None)
df3
#取消表格第一行为默认表头,以0123···为表头
登录后复制
df4=pd.read_excel("C:/Users/kzk/Desktop/背景介绍.xlsx",header=None,name=['A','B','C','D','E'])
df4
#取消表格第一行为默认表头,以ABCDE为表头
登录后复制
df5=pd.read_excel("",header=None,names={'A','B','C','D','E'},usecols=[1,3])
df5
#索引为1和3,也就是第二列和第四列
登录后复制
2、导入CSV格式数据
read_csv方法中的sep参数表示要导入的csv文件的分隔符,默认是半角逗号。encoding参数用来指定CSV文件的编码,常用的有utf-8h和gbk
import pandas as pd
df1=pd.read_csv("",sep=",",encoding="gbk")
df1
登录后复制
df2=pd.read_csv("",sep=",",encoding="gbk",nrows=3)
df2
#只导入前三行
登录后复制
df4=pd.read_csv("",sep=",",encoding="gbk",names=["ID","fruit","amount"])
df4
登录后复制
3、导入JSON数据
JSON数据是一种轻量级的数据交换格式,容易阅读,也容易被机器扫描,在互联网应用中很常见,有时候从后台系统中导出来的数据就是JSON格式
JSON文件实际上存储的是一个JSON对象或者一个JSON数组,JSON对象是由多个键值对组成的,类似python的字典,JSON数组由多个JSON对象组成,类似列表
import pandas as pd
json=pd.read_json("路径")
json
登录后复制
4、导入txt格式数据
使用read_table方法,参数和用法与read_csv类似
import pandas as pd
df1=pd.read_table("路径")
df1
登录后复制
5、导入(爬取)网络数据
在数据分析中,除了可以导入文件和数据库中的数据,还有一类非常重要的数据就是网络数据,网络中每天都会产生大量数据,这些数据具有实时性,种类丰富的特点,因此对于数据分析而言是十分重要的一类数据来源
关键技术:爬取网络表格类数据,pandsa库read_html()方法
read_html()方法用于导入带有table标签的网页表格数据,使用该方法前,首先要确定网页表格数据是否为table标签。右击网页中的表格查看元素
确定后才可以使用read_html的方法
常用参数说明如下
io:字符串,文件路径,也可以是URL连接,网址不接受https,可以尝试去掉s后爬取
header:指定列标题所在的行
index_col:指定列标题所在的行
index_col:指定行标题对应的列
【例】 爬取A股公司营业收入排行榜
中商情报网是专业的产业情报分享云平台,主要提供研究报告、行业分析、市场调研等数据。在本案例中,通过爬取中商情报网中A股公司营业收入排行榜表格获取相应的金融数据,数据网址为https://s.askci.com/stock/a/
import pandas as pd
url="https://s.askci.com/stock/a/"
df=pd.read_html(url)[0]#索引为0
print(df)
登录后复制
0 1 2 3
0 排名股票代码 企业简称 营业收入(亿元)
11 600028 中国石化 27408.84
22 601857 中国石油 26143.49
33 601668 中国建筑 18913.39
44 601318 中国平安 11804.44
55 601390 中国中铁 10704.17
66 601186 中国铁建 10200.10
77 601398 工商银行 9427.62
88 601628 中国人寿 8585.05
99 600941 中国移动 8482.58
10 10 601939 建设银行 8242.46
登录后复制
2.2输出数据
1、CSV格式数据输出
【例】导入sales.csv文件中的前10行数据,并将其导出为sales_new.csv文件
关键技术:pandas库中的to_csv方法
在该例中,首先通过pandas库的read_casv方法导入sales.csv文件的前十行数据,然后使用pandas库的to_csv方法将导出的数据输出为sales_new.csv文件
import pandas as pd
df=pd.read_csv("地址",sep=","encoding="gbk",nrows=10)
df.to_csv('sales_new.csv',encoding="gbk")
登录后复制
pandas库的to_csv方法,参数说明:
path_or_buf:要保存的路径及文件名
sep:分割符,默认为","
columns:指定要输出的列,用列名,列表表示,默认值为None
header:是否输出列名,默认值为True
index:是否输出索引,默认值为True
encoding:编码方式,默认值为"utf-8" 也可以是gbk
【例】对于上一小节中的问日,如销售文件格式为:sales.xlsx文件,如何处理
关键技术:DataFrame对象的to_excel方法
与上例相似,该例首先利用Pandas库的read_excel方法读入sales.xlsx文件,然后使用to_excel方法导出新文件
import pandas as pd
df=pd.read_excel("地址")
df1=df.head(10)
df1.to_excel('sales_new.xlsx',encoding="gbk")
登录后复制
2、xlsx格式数据输出
对于Pandas库中的to_excel()方法,有下列参数说明
sheet_name:字符串,默认值为"sheet1",指包含DataFrame数据的表的名称
np_rep:字符串,默认值为’'。指缺失数据的表示方式
columes:序列,可选参数,要编辑的列
header:布尔型或字符串列表,默认值为True。如果给定字符串列表,则表示它是列名称的别名
index:布尔型,默认值为True 行名(索引)
index_label:字符串型或序列,默认值为None。如果文件数据过多的使用多索引,则需使用序列
encoding:指定Excel文件的编码方式,默认值为None
3、导入到多个sheet页中
【例】将sale.xlsx文件中的前十行数据,导出到sales_new.xlsx文件中名为df1的sheet页中将后五行数据导出到名为df2的sheet页中
首先建立df1/df2sheet页,然后使用pd.ExcelWriter方法打开sales_new.xlsx文件,再用to_excel方法导入到指定的sheet页中