본문 바로가기

분류 전체보기

(17)

노벨 화학상 딥마인드 데미스 하사비스 인터뷰 (알파폴드) 中 2024년 노벨 화학상 수상자인 데미스 하사비스는 인공지능을 과학보다 공학이라고 생각한다는 점이 의외였다. 생각해보니 "문제정의"를 하고 방법을 찾기 위해 연구 및 개발하는 과정이 뭔가를 "만드는" 과정이니까 공학이라고 할 수 있겠다. 또한, 그 역시 연구를 시작한 2016년에는 자신들의 목표가 현실적으로 가능할 거라고 생각한 사람이 없었다는 것도 인상적이었다. 결국 계속해서 연구하고 개발한 결과 8년이 지나 노벨상으로 결실을 맺을 수 있지 않았을까. 그리고 또 인상적인 말은 처음부터 대단한 걸 만들려고 했다면 심리적으로 힘들었을 것이라는 말. 결국 목표는 원대하게 정하더라도 그 중간중간마다 마일스톤(milestone)들을 정하고 차곡차곡 돌계단을 밟고 오르듯 올라야 한다는 것으로 이해했다. "안될거..

[저널리뷰] MIL-BERT:군사 도메인 특화한국어 사전학습 언어모델 (KNST) 저널 원본: 본 논문에서는 추가 사전학습(further pre-training)을 통해 군사 도메인에 특화된 BERT 모델을 제안한다. 모델 학습을 위해 국방일보와 군사뉴스로부터 110만 개의 군사 문장과 6,900개의 군사용어를 수집하여 코퍼스를 구축하였다. 이후, KcBERT토크나이저에 대량의 군사 도메인 말뭉치를 이용하여 군사 도메인 지식을 추가로 학습시키고, MLM(masked language modeling)학습을 통해 모델을 훈련했다. 1. 관련 연구 BERT는 MLM 방식을 통해 주변 단어들의 양방향 관계를 학습한다. 이는 주어진 문장 내의 단어를 [MASK] 토큰으로 변환하여 주변 맥락을 통해 토큰이 된 단어를 예측함으로써 양방향 정보를 모두 반영한 텍스트를 학습할 수 있게 한다. BE..

Binary CrossEntropy (BCE), MAE, MSE Loss 와 heatmap 에 대해.. 2d pose estimation 에서 관절의 위치를 학습하기 위해 network 의 output 을 heatmap 으로 해서 학습을 하는 경우가 많다. * heatmap 이진맵과 가우시안 맵 두 가지가 있다. 이진맵으로 heatmap 을 만들 경우 joint 의 위치가 1 아닌 부분이 0 을 갖는 이진맵을 만든다. 가우시안 분포를 갖는 heatmap 은 joint 위치를 중심으로 가우시안 분포값을 가지게 된다. 가우시안 heatmap은 네트워크 학습을 더 용이하게 한다?? mse loss 와 bce loss 의 역전파 과정에서의 차이점?? * loss 이진맵 heatmap 의 경우는 BCE loss 를 사용하여 해당 픽셀에 관절이 존재하는지 계산하고, (가우시안 분포로도 bce loss 를 사용한다!)..

[논문 리뷰] PoseFormerV2: Exploring Frequency Domain for Efficient and Robust3D Human Pose Estimation Abstract 선행연구, PoseFormer는 Human Pose Estimation 에 transformer를 적용해서 Spatial-temporal structure를 이용해 Joint간 관계, Frame간 관계를 모델링했다. 하지만 2가지 한계점이 있다. 1. input joint sequence의 길이 , 2. 2d joint dection의 quality. 기존 방법은 일반적으로 input sequence의 모든 프레임에 self-attention을 적용하는데 이는 estimation accuracy 를 개선하기 위해 프레임의 수가 늘렸을 때 엄청난 계산 부담을 초래한다. 또한, 2d joint detector의 제한된 capability 때문에 noise에 robust 하지 않다. 따라서 본..

푸리에 변환 (Fourier Transform) 설명 블로그 https://darkpgmr.tistory.com/171 Fourier Transform(푸리에 변환)의 이해와 활용 푸리에 변환(Fourier transform)에 대해서는 예전부터 한번 정리를 해야겠다고 생각만 했었는데 이번에 기회가 되어 글을 올립니다. 푸리에 변환(Fourier transform)은 신호처리, 음성, 통신 분야에서 뿐만 darkpgmr.tistory.com

Estimating joint angles from 3D body pose: 3d world 좌표계로 joint angle 계산하기 원문 블로그 글 https://temugeb.github.io/python/motion_capture/2021/09/16/joint_rotations.html Estimating joint angles from 3D body poses This post gives a general strategy on how to calculate joint angles from 3D body poses given in world coordinates. If you need to get 3D body poses, check my post here. If you want to see a demo for calculating joint angles from 3D poses, check my reposito temugeb.g..

A simple yet effective baseline for 3d human pose estimation [ICCV 2017] 정리 블로그 https://ctkim.tistory.com/entry/A-simple-yet-effective-baseline-for-3d-human-pose-estimation-%EB%85%BC%EB%AC%B8-%EC%A0%95%EB%A6%AC A simple yet effective baseline for 3d human pose estimation 논문 정리 Introduction 사람이 존재하는 공간은 3차원으로 이루어져 있다. 그래서 2차원 이미지로 포즈를 추정하여 가상환경에 표출하거나 새로운 데이터로 변환하는데 한계가 존재한다. 이에 3차원 human pose ctkim.tistory.com - camera coordinate 이란 https://jhtobigs.oopy.io/3dcoordin..

mediapipie - pose estimation https://blog.research.google/2020/08/on-device-real-time-body-pose-tracking.html On-device, Real-time Body Pose Tracking with MediaPipe BlazePose Posted by Valentin Bazarevsky and Ivan Grishchenko, Research Engineers, Google Research Pose estimation from video plays a critical role enabling the overlay of digital content and information on top of the physical world in augmented reality, sign lan..

24.02.05 pose estimation 자료 논문 1 https://openaccess.thecvf.com/content/CVPR2021/papers/Ma_Context_Modeling_in_3D_Human_Pose_Estimation_A_Unified_Perspective_CVPR_2021_paper.pdf https://arxiv.org/pdf/2008.12272.pdf https://blog.naver.com/kingjykim/222668080665 Context Modeling in 3D Human Pose Estimation: A Unified Perspective(2021) 논문 리뷰 Paper : https://openaccess.thecvf.com/content/CVPR2021/html/Ma_Context_Modeling_in_3D_..

[논문리뷰] ViTPose: Simple Vision Transformer Baselines forHuman Pose Estimation [NeurIPS'22] 1. Abstract 이 논문에서는 ViTPose라는 간단한 베이스라인 모델을 통해서 다양한 측면(모델 구조의 단순함, 모델 크기의 확장성, 훈련 패러다임의 유연성, 모델 간 지식 전달 가능성)에서 자세 추정을 위한 plain vision transformer의 놀랍도록 우수한 능력을 보여준다. 특히 ViTPose는 사람 인스턴스의 특성을 추출하기 위해 일반적이고 비계층적인 Vision Transformers를 backbone으로 사용하고, 자세추정을 위해 가벼운 디코더를 사용한다. ViTPose는 attention 타입, input의 해상도, 사전 학습과 finetuning 전략, 다양한 포즈 task들에 매우 유연하다. 간단한 지식(knowledge) 토큰을 통해 large ViTPose 모델을 작은..

이전 1 2 다음

티스토리툴바