关于AI翻译相关的碎碎念

个人测试参考#

识别方式测试：#

√ 默认48px
√ mangaocr

翻译方式测试：<在线 or 离线> / [是否需要翻墙] / (翻译质量介绍) / {其他说明}#

√ 在线翻译<在线>: Google[需要翻墙] / Papago (翻译质量一般)
- { 如果没有其他翻译方式, 选择这两个就可以, 需要注意网络环境 }
{ 网络问题不想搞了× } 本地翻译 <离线>: m2m100 (翻译质量很好)
- { 首次翻译需要联网从 Github 下载翻译模型,约为 438MB。容器不能够删除否则需要重新下载模型, 在这之后启动不联网就能够直接翻译了 }
{ 申请api需要Visa卡,懒× } 在线 api 翻译 <在线>: Deepl (翻译质量好)
- { 需要有api, 并需要配置 yaml 文件的 environment }
√ 在线机器翻译 <在线>: Gpt3.5 / Gpt4 / Deepseek (翻译质量很好)
- { 需要有api, 并需要配置 yaml 文件的 environment。如果使用的翻译模型不是 openai 提供的, 就需要参考所使用的 api 文档修, 改代码中的 MODEL_NAME / BASE_URL / API_KEY }
√ 本地机器翻译 <离线>: Gpt4/Sakura (翻译质量很好)
- { 需要本地部署 Gpt4free, 它的功能类似于本地翻译。这个方式将翻译模型与容器分离了, 本地 Gpt4 运行在另一个 Docker 容器中, 默认是没有 API_KEY 的。如果想部署也可以自己研究设置, 你也可以将此项目部署到服务器上, 来减小本地电脑的运算成本 }

翻译环境测试：<在线 or 离线> / [是否需要翻墙] / (可翻译的内容介绍) / {其他说明}#

√ 本地 <离线> http://127.0.0.1:5003 (只能翻译本地图片和剪切板内容)
- { 阅读效果不理想 }
√ Comicread网站 <在线> (只能翻译本地图片和剪切板内容)
- { 阅读效果好, 但是推荐使用离线版 }
√ Comicread离线软件 <离线>：本地软件打开 (只能翻译本地图片和剪切板内容)
- { 阅读效果好, 需要在网站上下载下来, 然后在本地打开。这个软件相当于浏览器的一个页面, 只要在本地加载了就无需联网 }
√ 生肉网站 <在线>：如 https://klmanga.com/idx [需要翻墙] (能翻译网站上有的所有漫画)
- { 需要提前安装 Comicread 油猴插件, 阅读效果好 }

机器翻译测试：#

√ Deepseek：注册送一个月的免费使用, API 价格也很便宜 (提供 DeepSeek-V2 翻译模型)
√ api中转站：需要购买 (提供 GPT3.5模型/GPT4模型)
{ 懒的测试× } Gpt4free：需要本地部署 (提供 GPT4 模型)
√ Sakura：需要本地部署 (提供 SakuraLLM 模型)

演示环境测试：#

网络环境:
- 有网
- 无网
翻译环境:
- 在线: 生肉网站
- 离线: Comicread 离线软件
翻译方式:
- 全部

个人理解#

机器翻译的使用情况确认#

① 首先要选定你想要的模型

② 确认使用在线还是离线

③ 如果选择在线,则选择官方还是非官方

GPT 模型选择思路#

在线：
- 官方: OpenAI 官方提供, 需要翻墙, 申请 API 需要境外手机号 (购买成品号或虚拟手机号注册或 SMS 解码器, 他们都有封号的危险)
- 非官方：第三方 / 中转站
离线：
- 官方暂无开源 (但 Github 上有 GPT4Free)

DeepSeek 模型选择思路#

在线：
- 官方: DeepSeek 官网提供, 无需翻墙, 注册即可使用, 支持支付宝
- 非官方：第三方 [不清楚有没有人部署这种模型的服务器] / 中转站 [需要有人愿意去中转,不过这个模型也没什么必要]
离线：
- GitHub 上有对应的开源项目, 本地部署

使用 API 需要确定#

所有的 API 都是通过服务器转发给你的, 在此过程中需要消耗资源, 所以需要付费 (除非你部署在本地或自己的服务上,这样就不需要付给别人钱了)

① BASE_URL
接收地址, 因为模型不是运行在本地, 所以要根据选择的模型发送数据到服务器内获取数据, 不同的网站服务的接收地址都不同。

② API_KEY
服务器在接收数据时用来确认用户的数据的, 如: API 额度, 以便之后的付费。不同网站的服务器所接收的数据不同, 他们也不能互通。

③ MODEL_NAME
模型官网和中转站一般都会提供多个模型, 可以通过在 BASE_URL 中指定模型的接口名称从而指定使用对应的模型。

④ (默认与 Openai 相同) / XXX
接口地址, 在 Python 中为了方便都是使用 Openai 库来进行转发的, 而 Openai 库中的接口地址是 Openai 官网写定的, 因此需要查看 Openai 官网, 如果你使用的这个接口和官网不对应就需要进行修改。

⑤ (默认与openai相同) 发送和接收的数据格式
这两个数据的格式需要参考你所使用的模型的 API 指南

模型官网 [无中转 / 处理数据在官网服务器]#

如: DeepSeek / OpenAI
由开发模型的官网提供 BASE_URL 和 API_KEY, 使用的模型是官网能够提供的, 如果是语言模型, 一般会在官网自带 Chat 可供使用, 使用的 API 都是经转这些官网部署的模型服务器经过运算后返回给你结果。费用由官网定, 不同的模型定价也各不相同。有些官网的模型甚至是开源的你可以下载他们并在本地部署。

第三方 [无中转 / 处理数据在部署者服务器]#

将开源的模型部署在自己的服务器上, 能够选择的模型主要看创建者部署了哪几个模型, 产生第三方的 BASE_URL 和第三方的 API_KEY 供用户使用, 定价由创建者提供一般价格相对便宜, 网站有没有 Chat 功能全看创建者是否愿意提供, 使用 API 会经转这些第三方的服务器经过运算后返回给你结果。

本地部署 [无中转 / 处理数据在本地电脑或本地服务器]#

将开源的模型部署到本地, 在本地进行运算后生成结果, 如GPT4Free。一般不会生成 API_KEY, 但是如果你想你也可以设置 API_KEY 来进行使用, 同时会生成 BASE_URL 可供本地使用, 使用的模型由用户下载部署的模型决定, 想切换使用就需要部署不同的模型。不会产生费用, 只是费电费运算资源。你也可以将模型部署在服务器上, 来达到第三方的使用情况。

中转站 [一次或多次中转 / 处理数据在目的地服务器]#

根据开发者使用的目的地模型来确定能够使用的模型, 并通过接口接收到用户提交的信息, 然后使用开发者的多个不同模型账号将信息中转给目的地模型网站, 再将返回的信息提供给用户。该网站能提供给用户该该中转服务器的 APIKEY 和 BASEURL (处理服务器是目的地模型的服务器)

CHAT镜像站/CHAT软件 [只有chat的功能, 不会给你提供API相关的内容]#

① 网站或软件上通常会给出指定的模型用来使用, 当你选择对应的模型后, 你所提供的其他模型网站的 API 且需要支持这个模型才能够使用。这种网站是一个提供 API 接口后进行 Chat 的一个工具, 他们只有 Chat 的功能, 不能够提供 API, 类似于市面上绝大多数的聊天机器人。这类网站需要你提供自己 BASE_URL 和对应的 API_KEY 才能运转, 主要的费用承担由用户来承担, 网站的风险也相对较高, 一般都用于离线版软件上部署。

② 主要网站是站长使用自己的 API 来部署的一个 Chat服务, 用户在创建账号后, 会分配给你使用资源, 网站上支持的模型也是站长指定的, 主要费用由用户承担, 风险只有网站会不会跑路, 但是价格会相对便宜。这类网站不会提供 API 接口, 同样也不需要 API。

③ 部署在管理员自己的服务器上, 部署相应的模型供用户选择, 但是只提供 Chat 服务

模型的部署方式#

① 部署在管理员自己的服务器上, 部署多少模型由管理员选择。用户根据管理员提供的模型来选择自己要使用的模型, 提供给用户 API_KEY 和 BASE_URL (处理服务器是管理员的, 处理模式是和官方的一样, 处理速度看服务器配置)【本地部署的模型放到服务器上并对外开放就是第三方的使用情况】<本地部署 / 第三方 / 官网>

② 用户需要根据开发者使用的目的地模型来确定能够使用的模型, 通过接口接收到用户提交的信息, 然后使用开发者的多个不同模型账号将信息中转给目的地模型网站, 再将返回的信息提供给用户。该网站能提供给用户该该中转服务器的 APIKEY 和 BASEURL (处理服务器是目的地模型的服务器) <中转站>

开发部署选择#

① Kaggle 服务器开发
可自选配置 / 价格便宜 / 无独立 ip / 免费资源 / 预设环境

② 传统云服务器开发
可自选配置 / 价格昂贵 / 有独立 ip / 环境需要自行配置

③ 本地服务器 / 本地计算机开发
配置固定 / 有本地独立 ip / 环境需要自行配置

模型使用的两种方法#

① 通过接口来接收数据, 处理好后再返回输出, 发送端和接收端可以分开来

② 通过衔接的方式来获取数据, 调用模型的处理模块处理数据, 然后再返回输出, 发送端和接收端都在同一台设备上

收费方式【价格由各个不同的网站来定义】#

① 按每条来收费

② 按使用流量大小来收费

③ 根据发送和返回的数据字数来收费