1.我做了个chatPPT(含源码和prompt)
2.揭秘OpenAI新神器:Cursor源码深度解析与应用探索
3.手把手带你搭建一个语音对话机器人,源码5分钟定制个人AI小助手(新手入门篇)
4.AI办公自动化:用kimi批量把word转换成txt文本
5.树莓派实战:微信机器人(itchat实现)
6.使用全套开源工具构建 LLM 应用实战:在 Dify 调用 Baichuan 开源模型能力
我做了个chatPPT(含源码和prompt)
实现了一个基于AI的源码chatPPT工具,此工具能够根据输入的源码话题或句子自动生成PPT,包括润色标题、源码选择主题颜色以及生成所有插图。源码工具原理涉及openAI的源码表白 源码GPT 3.5 TURBO接口、Dalle2以及Python-pptx库。源码
GPT 3.5 TURBO接口用于生成PPT结构文本,源码包括PPT标题、源码页面标题和内容等,源码同时根据文本内容选择适合的源码情感主题色彩。Dalle2则将生成的源码文本转化为相应的,Python-pptx库则负责构建PPTX文件。源码
实现这个工具的源码关键在于制定合适的提示语,让AI理解用户需求并生成符合预期的源码PPT。实现过程相对简单,但需要考虑科学上网、openAI接口费用(生成一个PPT费用约在0.1~0.2美元,主要成本来自接口)以及输出篇幅的限制。
使用时需要注意以下几点:
1、确保网络环境稳定,以便顺利使用工具。
2、openAI接口使用需付费,费用主要依据生成数量,一般生成一个PPT的费用在0.1~0.2美元左右。
3、由于AI接口限制输出最多个token,输出篇幅可能会受限。为解决这一问题,建议将用户输入内容分为多个部分,每次生成四个左右的源码部署文档主题,将这些主题的回复拼合,最终生成完整的PPT。虽然这样会增加成本,但可以有效解决输出限制问题。
工具源码已提供,有兴趣的读者可自行下载和优化,以满足更多个性化需求。
揭秘OpenAI新神器:Cursor源码深度解析与应用探索
Cursor,一款专为编程与人工智能打造的编辑器,目前仍处于早期阶段,具备多项功能。由两家MIT高材生创立的公司于年在旧金山成立,获得OpenAI的投资。虽然Cursor的代码质量参差不齐,甚至可能部分由AI生成,其官网与代码仓库简陋,无详细文档。根据其官方声明,Cursor在智能性上比Copilot更出色。然而,实际功能还需通过官方提供的视频评估,视频展示了Cursor支持两种交互方式:通过cmd+k激活代码生成模式与cmd+l激活的聊天模式。生成代码的逻辑在源码文件的features/chat/chatThunks.ts中,通过向Cursor服务器发送POST请求,将信息通过token的方式流式返回,提供类似ChatGPT的体验。聊天模式下,Cursor能根据问题和文件上下文向AI提问。Cursor在理解工程上下文方面有显著进步,能够识别并提供项目中相关实现的文件路径。当前Cursor的dt php源码核心优势在于免费特性及理解项目工程的能力,但其劣势在于对VSCode生态的挑战。
在Cursor的内部实现中,通过解析输入的指令,结合编辑器与AI进行交互,实现代码生成、内容编辑与工程上下文理解等功能。对于生成代码和AI续写内容的请求,Cursor通过向服务器发送包含选中文本、指令类型等信息的POST请求实现。聊天模式下,Cursor通过简单的请求实现向AI提问。编辑器与AI之间的双向通信通过文本事件流技术实现,确保流畅的交互体验。然而,Cursor的核心后台实现尚未开源,这构成了其商业策略的一部分。
Cursor未来面临的挑战包括维持竞争优势、优化用户体验、解决与VSCode生态的兼容性问题,并进一步完善其核心功能。随着技术的不断进步与迭代,Cursor有望在编程辅助领域发挥更大的作用。尽管当前存在一些限制和不足,如代码质量、文档建设和后台实现的非开源性,但Cursor在编程辅助工具领域展现出了创新潜力,值得持续关注。
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
想象一下,身边有一个随时待命、聪明过人的js显示源码个人AI小助手,只需语音指令就能满足你的需求。那么,如何在5分钟内打造这样一款专属的AI呢?本文将带你从零开始,以新手友好的方式,一步步搭建语音对话机器人。语音对话系统的基础构建
一个语音对话机器人的核心由硬件和软件两部分组成,本文主要关注软件部分,它通常包括:快速搭建步骤
为了简化过程,我们将采用开源技术进行搭建。首先,使用阿里开源的FunASR进行语音识别,其中文识别效果优于OpenAI Whisper。你可以通过以下代码测试:...
大语言模型与个性化回答
利用大语言模型(LLM),如LLaMA3-8B,理解和生成回复。GitHub上已有中文微调的版本,部署教程如下:下载代码
下载模型
安装所需包
启动服务(注意内存优化)
通过人设提示词定制个性化回答
无GPU资源时,可选择调用云端API,后续文章会详细介绍。语音生成(TTS)
使用ChatTTS将文字转化为语音,同样采用FastAPI封装,具体步骤略。前端交互:Gradio
Gradio帮助我们快速构建用户界面,以下是WebUI的代码示例:...
系统搭建完毕与扩展
现在你已经拥有一个基础的语音对话系统,但可以进一步添加更多功能,提升用户体验。如果你觉得本文有帮助,记得点赞支持。 关注我的公众号,获取更多关于AI工具和自媒体知识的内容。如果你想获取源码,kali系统源码请私信关键词“机器人”。AI办公自动化:用kimi批量把word转换成txt文本
在Kimichat中输入提示词:
你是一个Python编程专家,要完成一个Python脚本编写的任务,具体步骤如下:
打开文件夹:F:\aword
读取里面docx格式的word文档,提取word文档中的第一行文字作为txt文本文档的标题名,将word文档转换为txt文档;重命名txt文档;注意:每一步相关信息都要输出到屏幕;在 Windows 系统中,默认的文件编码是 GBK,它不支持某些特殊的 Unicode 字符,为了解决这个问题,可以在打开文件进行写入操作时,指定使用 utf-8 编码。
kimichat生成Python源代码:
python
import os
from docx import Document
# 定义文件夹路径
folder_path = 'F:\\aword'
# 确保文件夹存在
if not os.path.exists(folder_path):
print(f"文件夹 { folder_path} 不存在。")
else:
# 列出文件夹中所有的docx文件
docx_files = [f for f in os.listdir(folder_path) if f.endswith('.docx')]
# 检查是否有docx文件
if not docx_files:
print("没有找到docx格式的Word文档。")
else:
for docx_file in docx_files:
# 构建完整的文件路径
docx_file_path = os.path.join(folder_path, docx_file)
# 读取Word文档
doc = Document(docx_file_path)
try:
# 提取第一行文字作为标题
title = doc.paragraphs[0].text.strip()
print(f"提取的标题为: { title}")
# 构建txt文件的完整路径
txt_file_path = os.path.join(folder_path, f"{ title}.txt")
# 将Word文档转换为txt
with open(txt_file_path, 'w', encoding='utf-8') as txt_file:
for para in doc.paragraphs:
txt_file.write(para.text + ' ')
print(f"文档 { docx_file} 已转换为txt格式。")
except IndexError:
print(f"文档 { docx_file} 中没有文本。")
except Exception as e:
print(f"处理文档 { docx_file} 时发生错误: { e}")
在vscode中运行源代码,成功。
树莓派实战:微信机器人(itchat实现)
本文介绍如何利用树莓派和开源库itchat构建微信机器人,实现自动回复、AI聊天、定时发送天气预报以及控制摄像头等实用功能。树莓派作为小时在线的server,使得微信机器人的应用范围更加广泛。
itchat是一个用于微信个人号接口的开源库,通过少量代码(不足行)即可实现微信机器人功能。其原理是模拟微信网页版客户端,通过HTTP协议进行通信。具体实现细节可以参考github上的源码。
首先,实现自动回复功能。注册消息处理函数以应对不同类型的微信消息,包括文本、、语音、视频等。默认处理单聊消息,同时可以扩展处理群聊消息。程序启动后,通过扫描二维码登录,然后自动运行。为避免发送消息给自己无效,可以通过发送消息给文件传输助手filehelper实现相同效果。
接下来,实现AI聊天功能。结合AI本地库或在线API,如青云客,可实现基于关键字命令的对话功能。对于自由对话可能效果不佳。在实现AI聊天功能的基础上,可以进一步获取天气预报信息,通过AI请求传递特定地点的天气查询。
定时发送天气预报功能需要解决定时任务执行和消息发送问题。Python库apscheduler可实现定时任务调度,而itchat提供便捷的API来搜索特定群。
控制摄像头功能则包括通过USB接口连接摄像头、使用fswebcam进行拍照以及使用linphone进行视频通话。fswebcam是用于拍照的命令行工具,而linphone是一个开源的IP电话客户端,适合在树莓派上使用。
完整代码已上传至GitHub,提供实用示例和详细的实现步骤。除了上述功能,还增加了健身打卡、睡觉打卡等实用功能,使得微信机器人的功能越来越丰富。
参考itchat提供的教程文档,可以找到更多关于微信机器人功能的实现和扩展。通过利用树莓派和itchat,开发微信机器人成为了可能,为自动化和智能化应用提供了新的途径。
使用全套开源工具构建 LLM 应用实战:在 Dify 调用 Baichuan 开源模型能力
在当前开源大语言模型的热潮中,许多开发者希望本地部署开源LLM(大型语言模型),用于研究LLM或构建基于开源LLM的应用。笔者也尝试通过开源社区的项目,本地部署服务构建自己的LLM应用。那么,本地部署开源LLM构建聊天应用需要哪些准备呢?本文将详细介绍步骤与工具,包括本地环境准备、大型语言模型、推理服务以及使用开源平台Dify.AI快速构建应用。 本地环境的准备: 为了部署高性能的开源大模型,需要一台配备高性能大显存NVIDIA显卡、大容量高速内存和大容量固态硬盘的本地机器。以Baichuan-chat-B模型为例,建议配置为:i9-K CPU、GTX双卡、GB内存和2TB固态硬盘。 大型语言模型: 大型语言模型是构建应用的基础,不同模型根据预训练数据和任务目标的不同,其结构和知识学习也不同。在Hugging Face等热门AI社区,可以寻找感兴趣的开源LLMs进行尝试和能力对比。 本地部署推理服务: 推理服务将预训练模型加载至本地服务器,提供模型预测接口,支持本地化使用LLM进行NLP任务,无需依赖云服务。使用GitHub上的一流开源项目,如LocalAI、openLLM等,一键部署热门开源模型。 Dify.AI:“LLM操作系统”:使用开源平台Dify.AI,构建基于不同LLM能力的AI应用变得简单。Dify支持快速调用和切换开源模型,包括托管在HuggingFace和Replicate上的所有模型,支持本地部署,通过Xorbits inference推理服务构建AI应用。
以下为实操步骤,从零开始介绍环境配置、安装CUDA、WSL2准备、Docker部署等。 环境准备: 基本的conda和Python环境推荐使用conda管理。首先安装conda,初始化Python3.环境。安装CUDA,推荐从官网直接下载Windows 版本。WSL2环境准备,安装Ubuntu版本并配置代理脚本。安装Docker Desktop,选择使用WSL2,确保WLS和Docker正常运行。配置WSL,安装WSL的CUDA,安装PyTorch。 部署推理服务Xinference: 根据Dify部署文档,Xinference支持多种大型语言模型。选择Xinference部署Baichuan-chat-3B模型。在WSL中安装Xinference基础依赖,并配置模型。启动Xinference并下载部署模型。使用Xinference管理模型查看已部署模型的uid。 部署Dify.AI: 参考Dify官网部署文档,CloneDify源代码,启动Dify,检查容器运行状态。在浏览器访问部署结果。 接入Xinference配置模型供应商: 在Dify设置中填入Xinference模型信息,注意SeverUrl使用局域网IP,获取WSL的IP地址。配置Baichuan-chat模型,创建应用。 后记: 本地部署结合Dify.AI,快速构建基于开源LLM的AI应用成为可能。通过持续迭代和优化,提升应用性能。Dify提供了一个完整的LLM应用技术栈,简化了构建和管理过程,支持数据清洗、标注等服务。LLM应用的场景和能力将进一步丰富,门槛降低。OpenAI 开源的免费 AI 语音转文字工具 - Whisper,一步一步本地部署运行
OpenAI 推出的开源免费工具 Whisper,以其出色的语音识别功能吸引了不少关注。这款模型不仅能够进行多语言的语音转文本,还能进行语音翻译和语言识别,实用价值极高。市面上许多语音转文字服务如讯飞语记等都收费,而Whisper作为开源选择,无疑是一个经济实惠且性能强大的解决方案。
想在本地体验Whisper,首先需要为Windows设备安装ffmpeg和rust。ffmpeg可以从ffmpeg.org下载并配置环境变量,而rust则可以从rust-lang.org获取并确保命令行可用。接着,创建一个python虚拟环境,安装Whisper所需的依赖库。
运行Whisper的过程相当直接。通过命令行,只需提供音频文件如"Haul.mp3",并指定使用"medium"模型(模型大小从tiny到large递增)。首次运行时,Whisper会自动下载并加载模型,然后开始识别并输出文本,同时将结果保存到文件中。如果想在Python代码中集成,也相当简单。
如果你对此技术感兴趣,不妨亲自尝试一下。项目的源代码可以在github.com/openai/whisper找到。这不仅是一次AI技术的体验,还可能开启语音转文字的新篇章。更多详情可参考gpt.com/article/的信息。
标签推荐:#AI技术 #OpenAI开源 #Whisper模型 #语音转文字 #ChatGPT应用