-
Notifications
You must be signed in to change notification settings - Fork 41
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230507] Weekly AI ArXiv 만담 시즌2 - 16회차 #82
Comments
Title: Developing a Safe and Ethical AI Content Generation System: Filtering and Evaluation Criteria for Textual OutputsAbstract:The rapid development of AI language models, such as GPT-4, has brought forth increasingly sophisticated content generation capabilities. However, this progress has raised concerns regarding the ethical implications and potential harm of generated content. This paper proposes a system for filtering and evaluating AI-generated text based on a set of predefined criteria. The primary goal is to ensure safer and more ethical AI content generation, while maintaining the model's creativity and utility. The proposed system utilizes fine-tuning, external knowledge integration, and evaluation metrics to improve the AI model's ability to generate appropriate content. Additionally, the paper explores the integration of AGI techniques to further refine the system's performance. News
Stanford researchers have shown that so-called "emergent abilities" in AI models, where a large model suddenly displays an ability it was not designed to possess, are really a "mirage" produced by researchers. Many researchers and industry leaders, such as #Google CEO Sundar Pichai, have claimed large #language models like GPT-4 and Google's Bard can suddenly display knowledge that they weren’t programmed to know, something considered human-like #intelligence. A 60-Minutes segment from April 16 claimed #AI models are "teaching themselves skills that they weren't expected to have," because they weren’t trained to have those skills. For instance, Google’s Bard was able to translate Bengali even though it was not trained to do so. #Microsoft #researchers claimed OpenAI's GPT-4 language model showed “sparks of artificial general intelligence,” saying it could “solve novel and difficult tasks…without needing any special prompting.” Such exaggerated claims, i.e., #hype, “stoke fears of losing control of an AI that suddenly eclipses human intelligence.” Stanford researchers present an explanation for emergent abilities. They write that “for a particular task and model family, when analyzing fixed model outputs, one can choose a metric which leads to the inference of an emergent ability or another metric which does not.” A person’s choice of a "non-linear" or "discontinuous" measurement can result in what appear to be sharp and unpredictable changes that are then falsely labeled as emergent abilities when in reality the performance curve is increasing smoothly. A discontinuous metric is something like a “Multiple Choice Grade,” which is the metric that produced the most supposed emergent abilities. Linear metrics, on the other hand, include things like “Token Edit Distance,” which measures the similarity between two tokens, and “Brier Score,” which measures the accuracy of a forecasted probability. What the researchers found was that when they changed the measurement of their outputs from a nonlinear to a linear metric, the model's progress appeared predictable and smooth, nixing the supposed "emergent" property of its abilities. Imagine evaluating baseball players based on their ability to hit a baseball a certain distance,” the researchers said. “If we use a metric like ‘average distance,” the distribution of players' scores will likely appear smooth and continuous. However, if we use a discontinuous metric like ‘whether a player's average distance exceeds 325 feet,’ then many players will score 0, while only the best players will score 1. Both metrics are valid, but we shouldn’t be surprised when the latter metric yields a discontinuous outcome. AGI
그날 분위기 보고 일부만 발표할 예정입니다 |
ResearchPersonal
EthicsUsing the Veil of Ignorance to align AI systems with principles of justicePaper: https://www.pnas.org/doi/10.1073/pnas.2213709120 DeepMind에서 지금까지 대다수의 AI safety 논문에 비해 AI 윤리에 대해 철학적인 근거가 매우 Deep한 논문을 내어 공유해드립니다. 보다 더 구체적으로 Veil of Ignorance를 적용할 수 있는 사례를 직접 제시하지 않는다는 점이 아쉽지만 여러 실험에서 정치적 성향 및 위험 관리의 영향의 요소보다 공정성을 더 중시하는 것을 실험적으로 보여 추후 인공지능의 윤리에 보다 범용적으로 적용할 수 있다고 생각됩니다. TheoreticalHyperbolic Image-Text RepresentationsArXiv: https://arxiv.org/abs/2304.09172 기존의 딥러닝 모델은 Euclidian space를 사용한 feature embedding을 나타내는 것이 주된 방식이었으나 해당 논문에서는 hyperbolic space에서 representation을 만들어 hierarchical embedding을 보다 정확하게 표기하는 방법을 제안합니다. Are Emergent Abilities of Large Language Models a Mirage?ArXiv: https://arxiv.org/abs/2304.15004 기존 연구에서 모델의 크기에 따라 특정 크기에서 emergent ability라는 기존 더 작은 모델에서 확인되지 않는 능력이 발견되는 현상에 대한 논의가 많이 진행되었는데 본 연구에서는 그런 문제는 불연속적인 측정 metric으로 인한 것이며 metric을 수정할 경우에 더 이상 발생하지 않는다고 주장합니다. 또한, 기존 흔히 사용되는 Vision task에서 accuracy와 같은 연속적인 척도 대신 top k matching과 같은 불연속적인 척도를 사용할 경우 vision model에서도 emergent ability 현상이 발생하는 것을 보입니다. Do SSL Models Have Déjà Vu? A Case of Unintended Memorization in Self-supervised LearningArXiv: https://arxiv.org/abs/2304.13850 SSL 방법론에서 diffusion model을 적용해 embedding에서 다시 학습 데이터의 상당 부분을 복원할 수 있고 이것은 단지 correlation을 학습한 것을 넘어 학습 데이터의 memorization을 보여주는 연구입니다. Segment Anything Model (SAM)과 같은 SSL 모델의 대중화로 인해 vision SSL의 중요성이 부각되면서 공개된 모델에 점검할 사항이라고 생각됩니다. PracticalCCpdf: Building a High-Quality Corpus for Visually Rich Documents from Web Crawl DataArXiv: https://arxiv.org/abs/2304.14953 Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model SizesArXiv: https://arxiv.org/abs/2305.02301 NewsGoogle "We Have No Moat, And Neither Does OpenAI": Leaked Internal Google Document Claims Open Source AI Will Outcompete Google and OpenAISource: https://www.semianalysis.com/p/google-we-have-no-moat-and-neither 구글의 연구원이 작성한 내부 문서가 유출되었는데 구글이 현재 OpenAI와의 경쟁보다 오픈소스와의 경쟁에 밀리는 것과 큰 모델을 고집하는 것이 오히려 발목을 잡고 있다고 주장합니다. 논란이 많지만 오픈소스의 빠른 진전 속도가 현재 proprietary system을 따라잡고 더 빠르게 응용되는 것은 DALL-E와 Stable Diffusion의 경쟁을 봐도 가능성이 있다고 생각됩니다. RLHF: Reinforcement Learning from Human FeedbackBlog: https://huyenchip.com/2023/05/02/rlhf.html Navigating the High Cost of AI ComputeBlog: https://a16z.com/2023/04/27/navigating-the-high-cost-of-ai-compute ChatGPT Prompt Engineering for DevelopersCourse: https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers Andrew Ng 교수님께서 운영하시는 DeepLearning.AI에서 개발자를 위한 ChatGPT Prompting Course를 공개했습니다. Fine-Tuning OpenAI Language Models with Noisily Labeled Data ImageNet에서 중복된 class가 있다는 점 및 흔히 사용되는 benchmark dataset에서 label에 문제가 많으며 이러한 데이터가 모델 학습 및 성능 평가에 큰 타격을 미치는 것을 보여주신 Curtis Northcutt이 설립한 Cleanlab에서 politeness 관련 데이터셋에서 GPT-3.5 모델 fine-tuning에 data cleansing의 효과를 확인했을 때 정확한 라벨을 적용했을 경우 성능 향상이 매우 큰 것을 확인했습니다. FACT SHEET: Biden-Harris Administration Announces New Actions to Promote Responsible AI Innovation that Protects Americans’ Rights and SafetyWhite House announces an independent commitment from leading AI labs like Anthropic, Google, Hugging Face, Microsoft, NVIDIA, OpenAI, and Stability AI, to participate in a public evaluation of AI systems on an evaluation platform developed by Scale AI. Technology지난 2주일동안 딥러닝 관련 기술 스택에서 많은 이노베이션이 있어 공유해드립니다. A Cookbook of Self-Supervised LearningBlog: https://ai.facebook.com/blog/self-supervised-learning-practical-guide Mojo by ModularBlog: https://docs.modular.com/mojo/why-mojo.html LLVM, Clang, Swift, MLIR 등 여러 컴파일러 및 프로그래밍 언어를 설계한 Chris Lattner의 스타트업 Modular AI에서 Python의 편리성에 low-level programming을 추가할 수 있는 새로운 프로그래밍 언어 Mojo를 발표했습니다. Introducing Hidet: A Deep Learning Compiler for Efficient Model ServingPaper: https://dl.acm.org/doi/10.1145/3575693.3575702 CentML에서 Hidet이라는 새로운 딥러닝 compiler를 발표하고 PyTorch 2.x의 torch.compile에 backend로 사용할 수 있도록 공개하였습니다. 현재 PyTorch 2.x에서는 torch.compile을 통해 OpenAI에서 개발한 Triton backend로 변환하고 Triton은 다시 MLIR을 통해 최적화 작업을 진행하는 방식을 사용합니다. 다만, (저자들에 의하면) Triton 등 방법론은 fine-grained optimization을 사용하기 어렵게 하기 때문에 먼저 operator를 최적화한 후 다시 하드웨어 최적화를 진행하는 새로운 컴파일러를 Python으로 (???!!!) 작성하여 공개했습니다. 아직 학습에서는 사용할 수 없지만 모델 배포를 하시는 분들께 많은 도움이 될 것 같습니다. MLC LLM: Enable everyone to develop, optimize and deploy AI models natively on everyone's devicesWebsite: https://mlc.ai/mlc-llm/ 초거대 LLM 모델을 웹브라우저 및 edge에서 inference할 수 있도록 최적화하는 컴파일러가 공개되었습니다. Technical Blogs by Intel딥러닝 모델의 배포가 중요해지면서 CPU에서의 성능도 중요성이 커졌기 때문에 Intel에서 최적화를 위한 방법론을 많이 공유하고 있습니다. 심지어 최신 Intel CPU에서는 AMX (Advanced Matrix Instructions)라는 새로운 instruction이 추가되어 Tensor Core와 유사한 기능을 하게 되었는데 CPU에서 딥러닝 모델 배포 최적화 관련 최근 블로그 몇 개를 소개합니다. Optimizing Transformer Model Inference on Intel® ProcessorsIntel PyTorch Extension을 사용했을 때 CPU에서 BERT 모델을 처리하기 위한 최적화 및 MKL을 사용하는 방법에 대해 설명합니다. Introduction to Distributed CommunicationMoore의 법칙의 종말로 하나의 프로세서가 더 좋아지는 것이 아닌 여러 프로세서에 업무를 나누어 프로그램의 속도를 향상해야 하지만 그러기 위한 분산 연산처리는 난이도가 매우 높습니다. 해당 분야에 대한 좋은 소개 글이 공개되어 공유드립니다. |
News
ArXiv
|
간단하게 뉴스 위주로 공유합니다. (주로 TechCrunch에 나온 기사들) LLM 서비스 관련
기타 AI서비스 관련
그리고 덧붙여...
|
저는 오늘 모두연의 LAB 과 풀잎스쿨 홍보를 잠깐 하겠습니다.
|
No description provided.
The text was updated successfully, but these errors were encountered: