AI技术开源项目小结2023 – JeeInn的技术分享

AI数字人相关

SadTalker
单图像会说话的人脸动画，静态图片加音频，生成说话视频
项目主页：https://github.com/OpenTalker/SadTalker

Wav2lip
Wav2lip 是把一个闭嘴的视频生成为说话视频
项目主页：https://github.com/Rudrabha/Wav2Lip

Video-retalking
是把一个说话的视频，改成说成你要改的话。
项目主页：https://github.com/OpenTalker/video-retalking

AI作图/画图

StableDiffusion
2022 年发布的深度学习文字到图像生成模型，它主要用于根据文字的描述产生详细图像，能够在几秒钟内创作出令人惊叹的艺术作品。
项目主页：https://github.com/Stability-AI/StableDiffusion

DeepFloyd IF
文字生成图片大模型DeepFloyd IF，它是对Google之前文生图模型Imagen的复现
项目主页：https://github.com/deep-floyd/IF

AI声音处理

文字转语音 vits
项目主页：https://github.com/jaywalnut310/vits

声音克隆 RVC
项目主页：https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

本地GPT模型使用

GPT4All
一个免费使用、本地运行、隐私保护的聊天机器人。无需GPU或互联网。
官网：GPT4All

LocalAI
一个用于本地推理的与 OpenAI API 规范兼容的REST API，它允许使用消费级硬件在本地或本地运行模型，支持与 ggml 格式兼容的多个模型系列。
官网：LocalAI :: LocalAI documentation

LM Studio
完全离线本地运行LLM，支持 HuggingFace 下载任何兼容的模型文件，兼容 Open AI 接口。（macOS 仅支持M芯片系列）
官网：LM Studio – Discover, download, and run local LLMs
项目主页：https://github.com/mudler/LocalAI

Ollama
一条命令快速在本地运行大模型（暂不支持Windows）
官网：Ollama

应用整合类

AnythingLLM
基于RAG检索增强来实现知识库的检索，从而构建个人或者企业私有化的本地知识库。
12月11日消息，LangChain正式开源全栈应用程序AnythingLLM，为用户提供了构建私有ChatGPT的便利。无论是使用商业的现成LLM（Large Language Models），还是流行的开源LLM和VectorDB解决方案，您都可以轻松地在本地或远程托管中运行它，并智能地与提供的任何文档进行对话。
部署参考：AnythingLLM：基于RAG方案构专属私有知识库（开源｜高效｜可定制） – 知乎 (zhihu.com)
项目主页：https://github.com/Mintplex-Labs/anything-llm

后勤仓库 AIGC

AI数字人相关

AI作图/画图

AI声音处理

本地GPT模型使用

应用整合类

Related Posts

发表回复 取消回复

发表回复取消回复