当前位置：首页 > news >正文

告别手动转换！用Python脚本批量处理IUPAC与SMILES格式（附完整代码）

news 2026/6/30 5:03:10

告别手动转换！用Python脚本批量处理IUPAC与SMILES格式（附完整代码）

在药物研发和化学信息学领域，处理大量化合物数据是家常便饭。想象一下这样的场景：你刚拿到一个包含2000个化合物名称的Excel文件，老板要求你在下班前完成IUPAC名称到SMILES格式的转换。手动操作？光是想到要一个个复制粘贴到在线转换工具就让人头皮发麻。更糟的是，转换到第500个时网络突然中断，或者某个特殊字符导致转换失败却难以追溯——这种噩梦般的经历，相信很多科研工作者都深有体会。

幸运的是，Python为我们提供了完美的自动化解决方案。本文将带你构建一个健壮的批量转换脚本，不仅能处理常规转换，还能优雅应对网络波动、特殊字符、错误记录等实际问题。无论你是药物化学专业的学生，还是生物信息学领域的研究人员，这套方案都能让你的工作效率提升十倍不止。

1. 环境准备与核心工具选择

在开始编写批量转换脚本前，我们需要搭建合适的工作环境。与简单的单次转换不同，批量处理需要考虑更多工程化因素。

必备工具包：

pandas：数据处理的核心，能高效读写Excel/CSV文件
requests：比标准库urllib更友好的HTTP客户端
tqdm：为长时间运行的任务添加进度条
logging：记录转换过程中的错误和异常

安装这些依赖非常简单：

pip install pandas requests tqdm

对于化学专业工具，我们有两种主要选择方案：

方案类型	优点	缺点	适用场景
在线API	无需本地模型，准确性高	依赖网络，有速率限制	中小规模数据(≤1万条)
本地库(RDKit)	离线可用，速度极快	安装复杂，需处理依赖	大规模数据或敏感数据

本文重点讲解在线API方案，因其最适合大多数科研场景。我们将使用NCI/CADD Chemical Identifier Resolver服务，它提供了稳定的免费接口，支持多种化学标识符的相互转换。

提示：虽然RDKit是更专业的化学信息学工具，但其安装过程可能让初学者望而却步。我们的方案优先考虑易用性和快速部署。

2. 构建健壮的转换函数

单次转换与批量转换的最大区别在于错误处理机制。一个生产级的转换函数需要考虑以下关键点：

import requests from urllib.parse import quote import time def safe_convert(input_str, target_format): """ 安全转换化学标识符的核心函数 :param input_str: 输入字符串(IUPAC或SMILES) :param target_format: 目标格式('smiles'或'iupac_name') :return: 转换结果或错误信息 """ base_url = "https://cactus.nci.nih.gov/chemical/structure/{}/{}" # 处理特殊字符 processed_input = input_str.replace('#', '%23').replace('=', '%3D') for attempt in range(3): # 重试机制 try: response = requests.get( base_url.format(quote(processed_input), target_format), timeout=10 # 重要：设置超时避免无限等待 ) response.raise_for_status() return response.text.strip() except requests.exceptions.RequestException as e: if attempt == 2: # 最后一次尝试也失败 return f"ERROR: {str(e)}" time.sleep(2 ** attempt) # 指数退避策略

这个增强版转换函数具有三大核心优势：

特殊字符处理：自动转义可能引起问题的字符如#和=
自动重试机制：网络波动时自动重试，采用指数退避策略
超时控制：避免因服务器响应慢而卡住整个程序

常见问题处理对照表：

问题类型	表现	解决方案
网络超时	requests.Timeout	自动重试+退避等待
无效输入	404错误	记录错误并跳过
服务限制	429错误	降低请求频率
特殊字符	解析失败	预处理转义

3. 实现高效批量处理

有了可靠的转换函数后，我们需要将其与pandas结合，实现真正的批量处理能力。这里提供两种高效模式：

模式一：全内存处理（适合中小型数据集）

import pandas as pd from tqdm import tqdm def batch_convert(input_file, output_file, input_col, output_col, direction): """ 批量转换主函数 :param input_file: 输入文件路径 :param output_file: 输出文件路径 :param input_col: 输入列名 :param output_col: 输出列名 :param direction: 转换方向('iupac2smiles'或'smiles2iupac') """ df = pd.read_excel(input_file) if input_file.endswith('.xlsx') else pd.read_csv(input_file) target_format = 'smiles' if direction == 'iupac2smiles' else 'iupac_name' tqdm.pandas(desc=f"Converting {direction}") df[output_col] = df[input_col].progress_apply( lambda x: safe_convert(x, target_format) ) df.to_excel(output_file, index=False) if output_file.endswith('.xlsx') else df.to_csv(output_file, index=False)

模式二：流式处理（适合超大型文件）

def stream_convert(input_file, output_file, input_col, output_col, direction, chunk_size=1000): """ 流式处理超大文件 """ target_format = 'smiles' if direction == 'iupac2smiles' else 'iupac_name' with pd.ExcelWriter(output_file) if output_file.endswith('.xlsx') else open(output_file, 'w') as writer: for chunk in tqdm( pd.read_excel(input_file, chunksize=chunk_size) if input_file.endswith('.xlsx') else pd.read_csv(input_file, chunksize=chunk_size), desc="Processing chunks" ): chunk[output_col] = chunk[input_col].apply( lambda x: safe_convert(x, target_format) ) if isinstance(writer, pd.ExcelWriter): chunk.to_excel(writer, sheet_name='Results', index=False, header=writer.sheets['Results'].max_row == 0) else: chunk.to_csv(writer, index=False, header=writer.tell() == 0)

两种模式的性能对比：

指标	全内存模式	流式模式
内存占用	高	低
适合数据量	<10万行	>10万行
断点续传	不支持	支持
实现复杂度	简单	中等

注意：实际使用中，建议先用小样本测试转换效果，确认无误后再处理完整数据集。可以在代码中添加--test参数来限制处理行数。

4. 高级功能与异常处理

一个真正实用的批量转换工具还需要考虑以下进阶需求：

4.1 结果验证与质量控制

def validate_smiles(smiles): """简单的SMILES格式验证""" if smiles.startswith("ERROR"): return False return bool(re.match(r'^([^J][a-zA-Z0-9@+\-\[\]\(\)\\\/%=#$.]*)$', smiles)) # 在转换后添加验证列 df['is_valid'] = df['smiles'].apply(validate_smiles)

4.2 详细的日志记录

import logging from datetime import datetime def setup_logging(): logging.basicConfig( filename=f'conversion_{datetime.now().strftime("%Y%m%d_%H%M")}.log', level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s' ) # 在转换函数中添加日志记录 logging.info(f"Starting conversion of {len(df)} compounds") for idx, row in df.iterrows(): if not validate_smiles(row['smiles']): logging.warning(f"Invalid SMILES at row {idx}: {row['original']}")

4.3 性能优化技巧

并行处理：使用concurrent.futures加速

from concurrent.futures import ThreadPoolExecutor def parallel_convert(inputs): with ThreadPoolExecutor(max_workers=4) as executor: results = list(tqdm( executor.map(lambda x: safe_convert(x, target_format), inputs), total=len(inputs) )) return results

缓存机制：避免重复转换相同化合物

from functools import lru_cache @lru_cache(maxsize=1000) def cached_convert(input_str, target_format): return safe_convert(input_str, target_format)

速率限制：遵守API的使用条款

import ratelimit @ratelimit.limits(calls=10, period=1) def rate_limited_convert(input_str, target_format): return safe_convert(input_str, target_format)

完整脚本架构：

chem_converter/ │── __init__.py │── core.py # 核心转换函数 │── batch.py # 批量处理逻辑 │── cli.py # 命令行接口 │── utils/ │ │── logging.py # 日志配置 │ │── validation.py # 验证工具 │── tests/ # 单元测试

这种模块化设计让代码更易维护和扩展。例如，未来要支持RDKit作为后端，只需在core.py中添加新的实现，而不影响其他模块。

查看全文

http://www.cnnetsun.cn/news/2205590.html