AI技术开源项目小结2023

AI数字人相关

SadTalker
单图像会说话的人脸动画,静态图片加音频,生成说话视频
项目主页:https://github.com/OpenTalker/SadTalker

Wav2lip
Wav2lip 是把一个闭嘴的视频生成为说话视频
项目主页:https://github.com/Rudrabha/Wav2Lip

Video-retalking
是把一个说话的视频,改成说成你要改的话。
项目主页:https://github.com/OpenTalker/video-retalking

AI作图/画图

StableDiffusion
2022 年发布的深度学习文字到图像生成模型,它主要用于根据文字的描述产生详细图像,能够在几秒钟内创作出令人惊叹的艺术作品。
项目主页:https://github.com/Stability-AI/StableDiffusion

DeepFloyd IF
文字生成图片大模型DeepFloyd IF,它是对Google之前文生图模型Imagen的复现
项目主页:https://github.com/deep-floyd/IF

AI声音处理

文字转语音 vits
项目主页:https://github.com/jaywalnut310/vits

声音克隆 RVC
项目主页:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

本地GPT模型使用

GPT4All
一个免费使用、本地运行、隐私保护的聊天机器人。无需GPU或互联网。
官网:GPT4All

LocalAI
一个用于本地推理的 与 OpenAI API 规范兼容的REST API, 它允许使用消费级硬件在本地或本地运行模型,支持与 ggml 格式兼容的多个模型系列。
官网:LocalAI :: LocalAI documentation

LM Studio
完全离线本地运行LLM,支持 HuggingFace 下载任何兼容的模型文件,兼容 Open AI 接口。(macOS 仅支持M芯片系列)
官网:LM Studio – Discover, download, and run local LLMs
项目主页:https://github.com/mudler/LocalAI

Ollama
一条命令快速在本地运行大模型(暂不支持Windows)
官网:Ollama

应用整合类

AnythingLLM
基于RAG检索增强来实现知识库的检索,从而构建个人或者企业私有化的本地知识库。
12月11日 消息,LangChain正式开源全栈应用程序AnythingLLM,为用户提供了构建私有ChatGPT的便利。无论是使用商业的现成LLM(Large Language Models),还是流行的开源LLM和VectorDB解决方案,您都可以轻松地在本地或远程托管中运行它,并智能地与提供的任何文档进行对话。
部署参考:AnythingLLM:基于RAG方案构专属私有知识库(开源|高效|可定制) – 知乎 (zhihu.com)
项目主页:https://github.com/Mintplex-Labs/anything-llm

Author: thinkwei

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注