Go to file

ModelHub XC 6dd5bb7b8d 初始化项目，由ModelHub XC社区提供模型

Model: wudejian789/MolMetaLM-base
Source: Original Platform

2026-05-30 23:22:19 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

model.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

vocab.txt

初始化项目，由ModelHub XC社区提供模型

2026-05-30 23:22:19 +08:00

README.md

pipeline_tag, tags

pipeline_tag

Usage

Prepare tokenizer and model

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('wudejian789/MolMetaLM-base')
model = AutoModel.from_pretrained('wudejian789/MolMetaLM-base')

Obtain molecular representations from SMILES

smi = "COc1cc2c(cc1OC)CC([NH3+])C2"
tokenized_smi = tokenizer(" ".join(list(smi)), return_token_type_ids=False, 
                          return_tensors='pt', max_length=512, padding='longest', truncation=True)
emb_smi = model(**tokenized_smi).last_hidden_state
print(emb_smi.shape) # batch size, seq length, embedding size