Gpt翻译完整版

上一篇文章收到了很多小伙伴的反馈,总结了一下主要以下几点:

  1. 说不知道怎么调api

  2. 目前只是把所有的中文变成了英文,如果想要做多语言还需要把这些关键字提炼出来成放到message_zh.properties和message_en.properties文件中,否则的话这样的翻译没有意义,后续如果要加俄语或阿拉伯语就没办法进行动态切换了

  3. 日志中的中文不需要做多语言,只有返回前端的数据需要做多语言

所以针对上面三点,我又对代码做了些改动,来让整个国际化更加智能。

直接上代码,代码解决了第二个和第三个问题

python 复制代码
import json
import os
import re
import tempfile
import shutil
import difflib

from pydantic import BaseModel

from OpenAIClient import client


# 判断文本中是否包含中文字符(这里只检测实际内容,不包括缩进)
def has_chinese(text: str) -> bool:
    return bool(re.search(r"[\u4e00-\u9fff]", text))


# 调用大语言模型进行翻译的函数
def translate_text(text: str) -> str:
    return get_completion(text)


class TransResult(BaseModel):
    result: str
    key: str
    value_zh: str
    value_en: str


# gpt-4o-mini
def get_completion_eng_word(code_segment, model="gpt-4o-mini"):
    # return 'return Result.error("FILE_UPLOAD_FAILED," + state.getState());'
    messages = [
        {
            "role": "system",
            "content": (
                "你是一个专业的代码国际化助手。请将代码中所有的中文提示信息翻译成英文。翻译后的英文应该简短、准确,并且遵循以下规则:"
                "1. 使用单个英文单词来表示中文内容,如果一个中文句子由多个词组成,请用下划线连接多个单词。"
                "2. 所有被翻译的英文单词应全部用小写。未翻译的单词保持原状"
                "3. 请确保替换后的翻译尽量简洁,避免过长的英文描述。"
                "4. 保持代码结构和格式不变,仅替换中文字符串内容。不改变代码的其它部分。"
                '5. 如果输入的代码中字符串中需要拼接变量的,类似 return Result.succeed("导入数据成功,一共【"+rowNum+"】行"); ,需要把变量提取出来,当成参数传入,输出应为:''
                '{"result":"return Result.succeed("import_data_success_count", rowNum);", "key":"import_data_success_count", "value_zh":"导入数据成功,一共【"+rowNum+"】行", "value_en":"The data import is successful, and there are a total of ["+rowNum+"] rows"}'
                "6. 输出的内容为一个json结构, 包含result,为翻译之后完整的结果(结果中可能有双引号需要做转义),key为翻译出来的以下划线连接的那个单词, value_zh为原来的中文,value_en为原来的中文直接翻译的英文的句子"
                "例如:"
                "请翻译以下代码:"
                '@NotEmpty(message = "前置经纬度不能为空")'
                "输出应为:"
                '{"result":"@NotEmpty(message = "pre_points_is_empty")", "key":"pre_points_is_empty", "value_zh":"前置经纬度不能为空", "value_en":"pre points is empty"}'
                "请翻译以下代码:"
                'throw new BusinessException("获取分布式锁失败,请稍后再试");'
                "输出应为:"
                ""
                '{"result":"throw new BusinessException("get_lock_error");", "key":"get_lock_error", "value_zh":"获取分布式锁失败,请稍后再试", "value_en":"Failed to obtain distributed locks, please try again later"}'
            ),
        },
        {"role": "user", "content": f"请翻译以下代码:\n{code_segment}"},
    ]
    response1 = client.beta.chat.completions.parse(
        model=model,
        messages=messages,
        temperature=0,
        response_format=TransResult,
    )
    return response1.choices[0].message.parsed


def get_completion(code_segment, model="gpt-4o-mini"):
    messages = [
        {
            "role": "system",
            "content": (
                "你是一个专业的代码翻译助手。请将代码中的中文文本翻译成英文,"
                "保持代码结构和格式不变,仅替换字符串内容。保持变量名和函数名不变。"
                "你只需要输出翻译之后的内容,不需要添加额外的其它的内容,"
                "输出与输入除了翻译的内容变化,其它应该完全保持完全一致,不要输出markdown的格式。"
            ),
        },
        {"role": "user", "content": f"请翻译以下代码:\n{code_segment}"},
    ]
    response1 = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0,
    )
    return response1.choices[0].message.content

# 定义全局数组来存储翻译结果
translated_values_zh = []
translated_values_en = []


# 处理单个文件:逐行读取,遇到中文的行进行翻译替换,同时保留原有缩进
def process_file(
    file_path: str, max_line_length: int = 2000, special_keywords: list = None
) -> None:
    temp_file = tempfile.NamedTemporaryFile(mode="w", delete=False, encoding="utf-8")
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            for line in f:
                # 提取行的前导缩进和实际内容(去除换行符)
                indent_match = re.match(r"^(\s*)", line)
                indent = indent_match.group(1) if indent_match else ""
                content = line[len(indent) :].rstrip("\n")

                if has_chinese(content):
                    # 如果content中包含Result或包含@NotNull,或包含@Size或包含@NotEmpty,则用另一种方式进行翻译
                    if any(keyword in content for keyword in special_keywords):
                        translated_json = get_completion_eng_word(content)
                        # 提取result, key, value_zh, value_en
                        translated_line = translated_json.result
                        key = translated_json.key
                        value_zh = translated_json.value_zh
                        value_en = translated_json.value_en
                        translated_line = "\n".join(
                            indent + part for part in translated_line.splitlines()
                        )
                        line = translated_line + "\n"
                        print(
                            f"Processed: {file_path}, zh: {key} = {value_zh}, en: {key} = {value_en}"
                        )
                        translated_values_zh.append(f"{key}={value_zh}")
                        translated_values_en.append(f"{key}={value_en}")
                    else:
                        translated_line = translate_text(content)
                        # 保留每一行的缩进
                        translated_line = "\n".join(
                            indent + part for part in translated_line.splitlines()
                        )
                        line = translated_line + "\n"
                temp_file.write(line)
        temp_file.close()
        shutil.move(temp_file.name, file_path)
    except Exception as e:
        print(f"Error processing {file_path}: {e}")
        if os.path.exists(temp_file.name):
            os.remove(temp_file.name)


# 遍历目录,对指定后缀的文件进行处理
def process_directory(
    root_dir: str,
    file_extensions: list,
    special_keywords: list = None,
    max_line_length: int = 2000,
) -> None:
    for subdir, _, files in os.walk(root_dir):
        for file in files:
            if any(file.endswith(ext) for ext in file_extensions):
                file_path = os.path.join(subdir, file)
                process_file(file_path, max_line_length, special_keywords)


if __name__ == "__main__":
    root_directory = "D:\\XX\\xxx\\"
    special_keywords = [
        "Result.",
        "@NotNull",
        "@Size",
        "@NotEmpty",
        "@NotBlank",
        "@Pattern",
        "@Min",
        "@Max",
        "Exception",
        "Assert.",
    ]
    extensions = [".java"]

    process_directory(root_directory, extensions, special_keywords)
    # 输出翻译结果到 .properties 文件
    with open(
        "messages_zh.properties",
        "w",
        encoding="utf-8",
    ) as f_zh, open(
        "messages_en.properties",
        "w",
        encoding="utf-8",
    ) as f_en:
        # 写入中文翻译结果
        for value in translated_values_zh:
            f_zh.write(value + "\n")
        # 写入英文翻译结果
        for value in translated_values_en:
            f_en.write(value + "\n")

    print(
        "翻译结果已写入 translated_values_zh.properties 和 translated_values_en.properties 文件。"
    )

这里使用了 pydantic对输出的结果进行格式化为了json,相比上一篇的直接输出翻译后的结果优势是:可以让大模型同时提取其中的key和value_zh和value_en,这样可以直接把这两个结果写入properties配置文件,省去了自己生成properties文件的过程。

针对日志和注释不需要做多语言的,直接通过另一个propmt将中文全部翻译成英文即可。

再来看问题1,不知道怎么调api,非常简单

python 复制代码
from openai import OpenAI

openai_api_key = "sk-xxxxxxxxxxxxxxxxxx"
openai_api_base = "https://api.gptsapi.net/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

因为openai需要翻墙到国外,所以我买了国内的代理的api,非常便宜,先冲5刀,一共也就一顿饭钱。我翻译了一整个项目才花了1.5刀,真是便宜哇。下面是我调用的记录,真是很省钱哇。

有了这个便宜的api我感觉我可以干好多事了,后续我也会用这个api来做各种智能化的应用,欢迎关注我。另外,我这边也同步开通了哔站,录了一些视频来更加透彻的带大家来一起学习AI,让AI成为我们最忠实的硅基家人

哔站主页

魔幻AI人的个人空间-魔幻AI人个人主页-哔哩哔哩视频哔哩哔哩魔幻AI人的个人空间,提供魔幻AI人分享的视频、音频、文章、动态、收藏等内容,关注魔幻AI人账号,第一时间了解UP主动态。魔幻AI人,对AI如此痴迷https://space.bilibili.com/543835355?spm_id_from=333.1387.0.0

相关推荐
龙兵科技软件开发小江3 天前
人工智能销售客服app开发,OpenAI宣布GPT-5免费使用?Deepseek让AI巨头全跪了
人工智能·gpt·微信小程序·openai·龙兵全案项目管理
码上飞扬3 天前
大语言模型主流架构解析:从Transformer到GPT、BERT
gpt·语言模型·transformer
陈敬雷-充电了么-CEO兼CTO4 天前
DeepSeek-R1-Zero:基于基础模型的强化学习
人工智能·python·gpt·搜索引擎·自然语言处理·chatgpt·aigc
码上飞扬4 天前
GPT大语言模型与搜索引擎:技术本质与应用场景的深度解析
gpt·搜索引擎·语言模型
yrldjsbk5 天前
为什么gpt-sovits微调训练轮数最大只能设置为3
人工智能·gpt·机器学习
金融OG5 天前
1.2 Kaggle大白话:Eedi竞赛Transformer框架解决方案02-GPT_4o生成训练集缺失数据
开发语言·人工智能·python·gpt·机器学习
陈敬雷-充电了么-CEO兼CTO5 天前
DeepSeek-R1:通过强化学习激发大语言模型的推理能力
人工智能·gpt·搜索引擎·自然语言处理·chatgpt·大模型·aigc
马武寨山的猴子6 天前
【DeepSeek】【GPT-Academic】:DeepSeek集成到GPT-Academic(官方+第三方)
gpt
shelly聊AI6 天前
GPT-5倒计时:2025年AI海啸来袭,机器与人类对话临近
人工智能·gpt·openai